


多 智能 体 机 器 学 习 
强化 学 习 骆 法 


Multi-Agent Machine Learning: 


A Reinforcement Approach 


[加 拿 大 ] 霍华德 M . 施 瓦 效 (Howard M.Schwartz) 著 
连 晓 峰 谭 励 等 译 


本 书 提供 了 一 种 多 智能 体 不 同学 习 方 法 的 框架 。 同 时 还 提供 了 多 智能 体 微分 博弈 中 的 最 新 进展 以 
及 在 博弈 理论 和 移动 机 器 人 中 应 用 的 全 面 概述 。 本 书 向 读者 介绍 了 多 智能 体 机 器 学 习 的 不 同方 法 。 主 
要 包括 单 智能 体 强化 学 习 、 随 机 博弈 和 马尔 科 夫 博弈 、 自 适应 模糊 控制 和 推理 、 时 间 差分 学 习 和 Q 学 
习 。 本 书 具 有 如 下 特点 : 

> 全 面 涵盖 了 多 人 博弈 、 微 分 博弈 和 博弈 理论 ; 

> 基于 梯度 算法 的 简单 策略 学 习 方 法 ; & @ 

> SAPO MMM RAF MATH; 

> 群 机 器 人 和 性 格 特征 进化 中 的 学 习 示例 5 
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本 书 主要 介绍 了 多 智能 体 机 器 人 强化 学 习 的 相关 内 容 。 全 书 共 6 
音 ， 首 先 介 绍 了 几 种 常用 的 监督 式 学 习 方法 ， 在 此 基础 上 ， 介 绍 了 单 
智能 体 强 化 学 习 中 的 学 习 结 构 、 值 函数 、 马 尔 科 夫 决策 过 程 、 策 略 迭 
代 、 时 间 差 分 学 习 、Q 学 习 和 资格 迹 等 概念 和 方法 。 然 后 ， 介 绍 了 双 
人 和 矩阵 博弈 问题 、 多 人 随机 博弈 学 习 问 题 ， 并 通过 3 种 博弈 游戏 详细 
介绍 了 纳什 均衡 、 学 习 算法 、 学 习 自 动机 、 沸 后 锚 算 法 等 内 容 ， 并 提 
出 LA- 请 后 锚 算 法 和 指数 移动 平均 0 学 习 算 法 等 ， 并 进行 了 分 析 比 
较 。 接 下 来 ， 介 绍 了 模糊 系统 和 模糊 学 习 ， 并 通过 仿真 示例 详细 分 析 
算法 。 最 后 ,介绍 了 群 智能 学 习 进 化 以 及 性 格 特征 概念 和 应 用 。 全 书 
内 容 丰 富 ， 重 点 突出 。 

本 书 可 作为 从 事 机 器 学 习 、 多 智能 体 协同 控制 等 领域 的 工程 技术 
人 员 的 参考 书 ， 也 可 作为 高 等 院 校 相关 专业 本 科 生 、 研 究 生 以 及 教师 
的 参考 用 书 。 
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“多 智能 体 ” 一 一 一 般 专 指 多 智能 体系 统 (Multi - Agent System, MAS) 或 
多 智能 体 技术 (Multi - Agent Technology，MAT) 。 多 智能 体系 统 是 分 布 式 人 工 智 
能 的 一 个 重要 分 文 ， 是 20 世纪 末 ~ 21 世纪 初 国际 上 人 工 智 能 的 前 沿 学 科 。 多 智 
能 体 学 习 相 关 的 研究 领域 已 成 为 人 工 智能 发 展 的 热点 。 

本 书 主 要 介绍 了 多 智能 体 学 习 的 相关 内 容 ， 目 的 在 于 解决 大 型 、 复 杂 的 现实 
问题 ， 而 解决 这 类 问题 已 超出 了 单个 智能 体 的 能 力 。 研 究 者 主要 研究 智能 体 之 间 
的 交互 通信 、 协 调 合 作 、 冲 突 消 解 等 方面 ， 强 调 多 个 智能 体 之 间 的 紧密 群体 合 
作 ， 而 非 个 体能 力 的 自治 和 发 挥 ， 关 于 Lyapunov 技术 的 非 线 性 自 适 应 控制 方面 
的 理论 材料 被 减少 ， 取 而 代 之 的 是 有 关 强 化 学 习 的 思想 。 强 化 学 习 的 目标 是 取得 
最 大 化 的 奖励 (回报 ) 。 强 化 学 习 和 非 监督 学 习 最 有 趣 的 部 分 就 是 奖励 的 选择 ， 
这 是 一 个 全 新 的 发 展 迅 速 的 应 用 领域 。 机 器 人 团队 必须 要 学 会 共同 工作 和 相互 竞 
争 。 本 书 是 一 本 专门 介绍 多 智能 体 强化 学 习 的 著作 。 

本 书 中 重点 研究 了 双人 阶段 博弈 和 德 阵 博弈 问题 。 其 中 主要 通过 3 个 不 同 的 
BDR: 猜 硬币 、 石 头 -剪刀 - 布 和 因 徒 困境 来 进行 阐述 。 这 些 都 被 称 为 矩阵 
IZ (matrix games) 或 阶段 博弈 (stage games) 的 游戏 ， 因 为 在 游戏 过 程 中 没 
有 发 生 状 态 转 移 。 本 书 没有 过 于 深入 研究 博弈 论 本 号， 而 是 专注 于 与 这 些 游 戏 相 
关 的 学 习 算 法 。 另 外 ， 作 者 还 结合 自己 的 教学 实践 ， 探 讨 了 多 机 器 人 智能 体 的 微 
分 博弈 问题 ， 并 通过 “逃跑 者 -追捕 者 ”博弈 和 “疆土 防 御 ” 博 弈 进行 了 深入 
















































































































































































讨论 。 
需要 指出 的 是 ， 书 中 和 矩阵、 矢量 为 保持 与 原 书 一 致 ， 并 未 使 用 黑 斜 体 ， 请 读 
者 注意 o 


本 书 第 1 ~3 RARD, B46 章 由 连 晓 峰 翻译 ， 全 书 由 连 晓 峰 审 校 统 
i, DR TER, FEN, SAR, RAMA, RER, SE, KE, RER, 
张 欣 、 邵 妍 洁 、 张 吉 东 、 张 丹 瑶 、 赵 辰 等 人 也 参与 了 部 分 内 容 的 翻译 。 

由 于 译 者 的 水 平 有 限 ， 书 中 不 当 或 错误 之 处 县 请 各 位 业内 专家 学 者 和 广大 读 
者 不 音 赐教 。 
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十 年 来 ， 本 人 一 直 在 教授 自 适应 控制 课程 。 这 门 课程 主要 是 讲授 系统 辨识 的 
常用 经 典 方法 ， 并 使 用 经 典 的 教材 ， 例 如 Liung"…” 。 该 课程 着 重 介绍 了 参考 模 
型 自 适应 控制 的 常用 方法 以 及 基于 Lyapunov 技术 的 非 线性 自 适 应 控制 方法 。 然 
而 ， 这 些 理论 已 不 再 适用 于 当前 的 工程 实践 。 因 此 ， 在 本 人 的 研究 工作 以 及 研究 
生 课 程 的 重点 内 容 中 进行 了 相应 调整 ， 增 加 了 自 适 应 信号 处 理 的 内 容 ， 并 融合 了 
基于 最 小 方 均 (LMS) 算法 的 自 适应 信道 均衡 和 回声 消除 的 内 容 。 同 时 ， 课 程 名 
称 也 相应 地 从 “ 自 适 应 控制 ” 变 为 “ 自 适 应 与 学 习 系统 ”。 本 人 的 研究 工作 仍 主 
要 集中 于 系统 辨识 和 非 线性 自 适应 控制 在 机 器 人 方面 的 应 用 。 然 而 ， 直 到 21 t 
纪 初 ， 才 开始 与 机 器 人 团队 开展 合作 。 目 前 ， 已 能 够 利用 常用 的 机 器 人 套件 和 低 
成 本 的 微 控 制 器 来 构建 可 协同 工作 的 若干 个 机 器 人 。 这 使 得 “ 自 适 应 与 学 习 系 
统 ” 的 研究 生 课程 内 容 再 次 发 生变 化 : 减少 了 基于 Lyapunov 技术 的 非 线 性 自 适 
应 控制 方面 的 理论 知识 ， 取 而 代 之 的 是 有 关 强 化 学 习 的 思想 。 这 是 一 个 全 新 的 应 
用 领域 ,机 器 人 团队 必须 要 学 会 相互 协作 和 将 争 。 

目前 ， 研 究 生 课程 主要 是 集中 于 采用 基于 递归 最 小 二 乘 (RLS) 算法 的 系统 
辨识 、 基 于 参考 模型 的 自 适应 控制 (仍然 采用 Lyapunov 技术 ) 、 基 于 LMS 算法 
的 自 适 应 信号 处 理 以 及 基于 0 学 习 算 法 的 强化 学 习 。 本 书 的 前 两 章 简 要 介绍 了 
EREA, 但 也 是 以 说 明 这 些 学 习 算 法 之 间 的 联系 ， 以 及 它们 之 间 的 相同 之 处 和 
不 同 之 处 。 与 这 些 内 容 相 关 的 其 他 材料 可 详 见 文献 [2 -4]。 

由 此 ， 进 一 步 的 研究 工作 开始 着 重 于 机 器 人 团队 如 何 学 习 以 实现 相互 合作 。 
这 些 研 究 工作 用 于 验证 机 器 人 在 合作 搜索 和 救援 以 确保 重要 设施 和 边界 区 域 安 全 
方面 的 应 用 。 同 时 ， 也 逐步 开始 关注 强化 学 习 和 多 智能 体 强化 学 习 的 研究 。 这 些 
机 器 人 就 是 具有 学 习 能 力 的 智能 体 。 和 孩子 们 是 如 何 学 习 玩 捉 人 游戏 的 ?人们 是 如 
何 练 习 踢 足球 的 ?以 及 在 追捕 罪犯 的 过 程 中 警察 是 如 何 协作 的 ?应 该 采用 什么 样 
的 策略 ? 如 何 制 定 这 些 策略 ?” 当 和 一 群 新 朋友 玩 足 球 时 ， 如 何 能 够 快速 评估 每 个 
人 的 能 力 ， 并 在 比赛 中 采用 特殊 策略 呢 ? 

随 着 研究 团队 开始 致力 于 深入 研究 多 智能 体 机 器 学 习 和 博弈 理论 ， 逐 渐 发 现 
尽管 已 有 很 多 相关 论文 发 表 , 但 并 不 集中 也 不 够 全 面 。 虽然 已 有 一 些 综述 性 文 
章 5] ， 但 均 未 能 充分 说 明 这 些 不 同方 法 的 具体 细节 。 本 书 旨 在 向 读者 介绍 一 种 
特殊 形式 的 机 器 学 习 。 全 书 主要 是 关于 多 智能 体 机 器 学 习 ， 同 时 也 包括 一 般 学 习 
算法 的 核心 内 容 。 学 习 算 法 的 形式 各 不 相同 ， 然 而 往往 都 具有 相似 方法 。 在 此 ， 
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将 着 重 比较 这 些 方法 的 相同 和 不 同 之 处 。 

本 书 的 主要 内 容 是 基于 本 人 的 研究 工作 ， 以 及 过 去 10 年 里 所 指导 下 的 博士 
生 、 硕 士 生 的 研究 工作 。 在 此 ， 特 别 感谢 Sidney Givigi 教授 。Givigi 教授 为 本 书 
第 6 章 中 所 介绍 的 主要 思路 和 算法 提供 了 坚实 基础 。 另 外 ， 本 书 中 还 包含 了 Xi- 
aosong (Eric) Lu 博士 的 研究 成 果 。 其 中 ， 关 于 疆土 守卫 部 分 的 内 容 主要 来 源 于 
其 博士 论文 。 同时， 还 有 一 些 研究 生 也 为 本 书 做 出 了 贡献 ， 他 们 是 Badr Al 


Faiya, Mostafa Awheda, Pascal De Beck - Courcelle 和 Sameh Desouky。 如 果 没 有 
人 研究 小 组 中 学 生 们 的 辛勤 工作 ， 本 书 是 不 可 能 完成 的 。 
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第 1 革 监督 式 学 习 概述 





在 系统 辨识 、 自 适应 控制 、 自 适应 信号 处 理 和 机 器 学 习 中 往往 会 用 到 一 些 算 
法 ， 这 些 算法 都 有 一 定 的 相似 性 和 差异 性 。 然 而 ， 上 述 算法 都 需要 处 理 某 种 类 型 
的 实验 数据 。 如 何 采 集 和 处 理 数据 决定 了 采用 哪 种 最 合适 的 算法 。 在 自 适应 控制 
中 ， 具 有 一 个 称 为 自 校正 调节 融 的 装置 。 在 此 情况 下 ， 算 法 主要 是 用 于 测量 状态 
以 作为 输出 ， 估 计 模 型 参数 ， 并 输出 控制 信号 。 在 强化 学 习 中 ,算法 的 作用 是 处 
理 奖励 、 佑 计 值 函数 并 输出 相应 操作 。 尽 管 递归 最 小 二 乘 (RLS) 算法 在 自 校正 
调节 噩 中 称 为 监督 式 学 习 算法 ， 而 在 强化 学 习 中 看 作 一 种 非 监 督 式 学 习 算 法 ,但 
实际 上 两 者 十 分 相似 。 在 本 章 中 ， 将 介绍 一 些 常用 的 监督 式 学 习 算法 。 











1.1 LS 算法 


最 小 二 乘 (LS) 算法 是 一 种 将 实验 数据 拟 合 为 模型 的 著名 的 鲁 棒 算法 。 首 
先是 为 用 户 定义 一 个 适合 于 拟 合 数据 的 数学 结构 或 模型 ;其 次 是 要 设计 一 个 在 适 
用 条 件 下 采集 数据 的 实验 , “适用 条 件 ” 通 常 是 指 在 系统 典型 运行 的 操作 条 件 ; 
接 下 来 是 运行 可 能 具有 多 种 形式 的 估计 算法 ;最 后 验证 所 辨识 的 或 “学 习 ” 的 
模型 。LS 算法 通常 用 于 拟 合 数 据 。 在 此 ， 以 大 多 非常 熟悉 的 经 典 二 维 线性 回归 
Wan Bi: 

















y(n) =ax(n) +b (1.1) 

在 上 述 简单 线性 回归 模型 中 ， 输 入 为 采样 信号 x(n)， 输 出 为 y(n)。 所 定义 

的 模型 结构 是 一 条 直线 。 因 此 ， 假 设 所 采集 的 数据 将 会 拟 合成 一 条 直线 。 由 此 可 
表示 为 











y(n) =$'0 (1.2) 
HH, W =[x(n) 1];0 =[a b]. 
如 何 选择 p 决定 了 模型 结构 ， 这 也 反映 了 认为 数据 所 应 表现 的 形式 。 这 就 
是 机 品 学 习 的 本 质 ， 而 且 也 是 几乎 所 有 的 大 学 生 在 茶 种 程度 上 学 习 线 性 回归 的 基 
本 情况 。 线 性 回归 算法 的 计算 可 以 表示 为 标量 成 本 函数 ， 由 下 式 给 出 : 


N A 
V = $ (y(n) - 6"(n) 8)? (1.3) 
n=l 
式 中 ,6 是 LS 算法 中 参数 9 的 估计 值 ， 目 的 是 在 估计 值 6 下 使 得 成 本 函数 了 
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为 得 到 参数 估计 6 的 “最 优 ” 值 ， 应 计算 成 本 函数 了 对 于 9 的 偏 导 并 设 
为 零 。 由 此 可 得 


y N r 
= È O) -o HH) 





DOLCES LOOL (1.4) 
2-0, 可 得 
¥ Hm) HH = XON (1.5) 
求解 6， 可 得 LS 的 解 : 
8 = (Eo) HT" [er (1.6) 


n=1 


EP, WER [Y b(n) o"n) ]- 存在。 如 果 逆 矩阵 不 存在 ， 则 该 系统 统 是 不 可 


n=l 


辨识 的 。 例 如 ， 如 果 在 直线 情况 下 只 有 一 个 单 点 ， e D F 
间 ， 因 此 不 可 能 存在 。 所 以 ， 至 少 需要 两 个 相互 独立 的 点 才能 绘制 一 条 直线 。 或 


‘i 
者 如 果 具 有 一 个 不 断 重 复 的 同一 点 ， 首 和 矩阵 也 不 可 能 存在 。 和 矩阵 [ > b(n) 


n=l 


b'(n)] RATE REM, RRARSRTT EE, fa EY EE Te 2E 
矩阵， 与 参数 估计 的 方差 成 正比 。 ea E e 这 些 特性 广 
泛 用 于 算法 性 能 的 分 析 。 在 一 些 文献 中 ,通常 将 协 方差 矩阵 表示 为 已 = 


DOLICE 。 在 此 ,将 式 (1.4) 中 右边 第 二 项 表示 为 


n=l 





ay y 
5g 7 0 Zn) ~ O(n) 8) O(n) (1.7) 
由 此 可 定义 预测 误差 为 
e(n) =(y(n) -"(n)0) (1.8) 


式 (1.7) 中 括号 内 的 项 称 为 预测 误差 ,或 也 可 称 为 “新 项 ” 。e(n) 表 示 系 统 输出 
的 预测 误差 。 在 此 情况 下 ， 输 出 项 y(n) 为 所 需 佑 计 的 正确 值 。 由 于 已 知 正确 值 ， 
因此 称 为 监督 式 学 习 。 值 得 注意 的 是 ， 预 测 误差 与 数据 矢量 的 乘积 等 于 零 。 因 此 ， 
可 认为 预测 误差 与 数据 正 交 ， 或 者 说 ， 数 据 不 在 预测 误差 的 空间 中 。 简 单 来 说 ， 这 
意味 着 如 果 已 经 选择 了 一 个 良好 的 模型 结构 $(n)， 则 预测 误差 应 表现 为 白 品 声 。 
通常 通过 绘制 预测 误差 可 快速 检查 所 设计 的 预测 天 性 能 。 如 果 误 差 是 相关 的 〈 即 
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不 是 白 噪 声 ) ， 那 么 就 应 该 继续 优化 模型 以 获得 更 好 的 预测 结 

一 般 而 言 ， 并 不 常用 式 (1.2) 中 的 线性 回归 形式 ， 而 通常 会 增加 白 噪 声 

项 ， 由 此 ， 线 性 回归 可 表示 为 
y(n) =6"(n) 6 +0(n) (1.9) 
AF, v(n) HAREM, 

式 (1.9) 可 表示 无 限 个 可 能 的 模型 结构 。 例 如 ， 假 设 要 学 习 一 个 二 阶 线性 
系统 的 动态 性 能 或 一 个 二 阶 无 限 冲 激 响 应 (TIR)〉 滤波 器 的 参数 。 可 以 选择 下 式 
给 出 的 二 阶 模型 结构 : 

y(n) = -ayn-1) -ay(n-2) +b,u(n-1) +b,u(n-2) +v(n) (1.10) 
那么 ， 模 型 结构 可 由 b(n) 定义 为 

p(n) =[y(n-1) y(n-2) u(n-1) u(n-2)] (1.11) 

一 般 情况 下 ， 可 将 任意 一 个 k 阶 自 回归 外 生 (ARX) 模型 结构 表示 为 








y(n) = ay(n-1) -agy(n -2) -any(n -hk) 
+b,u(n-1) +b,u(n-2) + +b,_,u(n 一天) +v(n) (1.12) 
则 b(n) 表示 为 


b(n) =[y(n-1)-y¥(n-m)  u(n-1)+-u(n-m) ] (1. 13) 
然后 ， 需 选择 一 个 适当 的 实验 进行 数据 采集 (这 并 不 容易 !) ， 并 根据 式 (1.6) 
WHER, KE b(n) 可 具有 多 种 不 同形 式 ， 实 际 上 还 可 包含 数据 的 非 线性 函 
数 ， 如 对 数 项 或 二 次 方 项 ， 以 及 具有 不 同 的 延迟 项 。 在 很 大 程度 上 ， 可 根据 专业 
经 验 来 确定 b(n) 的 形式 。 通 常数 据 以 矩阵 形式 表示 ， 此 时 ， 和 矩阵 可 定义 为 





P=[p(1) $(2):…$(N) J (1.14) 
而 输出 矩阵 为 
Y=[y(1)y(2):…y(N)] (1.15) 
由 此 ，LS 估计 可 写 为 
O= (GOT) -107 (1. 16) 
此 外 ， 还 可 将 预测 误差 表示 为 
E=Y-@'@ (1.17) 


同时 ， 正 交 条 件 也 可 表示 为 BE =0。 

用 于 参数 辨识 或 机 器 学 习 的 LS 方法 已 非常 成 熟 ， 并 且 与 此 技术 相关 的 还 有 
许多 特性 。 实 际 上 ， 统 计 推 理 的 许多 研究 成 果 都 来 自 于 本 节 中 所 介绍 的 几 个 公 
式 。 这 也 是 包括 社会 科学 工作 在 内 的 许多 科学 调查 研究 的 根源 。 








1.2 RLS 算法 


LS 算法 现 已 扩展 到 RLS FOE, EI, BB ACR Al ADL a ESE TR GE 


4 多 智能 体 机 器 学 习 : 强化 学 习 方法 





数据 。 在 1.1 节 中 ， 都 是 首先 采集 所 有 数据 ， 然 后 根据 式 (1.6) 计算 参数 估计 
值 。 RLS 算法 是 在 假设 已 知 LS 算法 的 一 个 解 并 增加 单个 数据 点 的 基础 上 推导 而 
得 的 。 上 有 具体 推 导 过 程 详 见 文献 [1]。 在 RLS 算法 的 实现 过 程 中 ， 成 本 函数 稍 有 
不 同 。 此 时 的 成 本 函数 为 











N 
V= DAM (y(n) - 67(n) 6)? (1. 18) 


n=l 
CH, ASI, A 和 A 项 称 为 遗忘 因子 。 
数据 点 越 早 ， 则 遗忘 因子 权重 越 小 。 这 样 ， 所 得 到 的 RLS 算法 就 能 够 跟踪 


参数 的 变化 。 同 样 ， 取 了 相对 于 0 的 偏 导 并 设 为 零 ， 可 得 
j N N 
0 = [YANGn Gn)] LY AC b(n) y(n)] (1. 19) 
n=l 


n=l 


HP, GER AF IN 0.95 <A <1.0, ARAN 0.95 左右 ， 则 之 前 的 数 
据 会 很 快 遗忘 。 经 验 法 则 表明 ， 参 数 9 的 估计 主要 是 根据 1/(1 -和 A) 个 数据 点 。 
RLS 算法 如 下 : 
6(n +1) =0(n) +L(n4+1) (y(n 41) -n+1)6(0n)) 
ete P(n) b(n 41) 


~N+6"'(n4+1)P(n) b(n 41) 
1 P(n)o(n +1) $'(n+1)P(n) 
Ponga =(P) - A+p n+l)P nb ntl) ) 
通过 将 参数 估计 矢量 9 初始 化 为 用 户 所 需 参数 的 最 佳 估计 来 实现 式 
(1.20) ， 为 简单 起 见 ， 通 常设 为 零 。 协 方差 矩阵 P 通常 初始 化 为 一 个 相对 较 大 
的 对 角 和 矩阵 来 表征 参数 估计 过 程 中 的 不 确定 性 。 
尽管 可 以 根据 式 (1.20) 来 实现 RLS 算法 ,但 应 注意 到 协 方差 矩阵 P 总 是 
正定 对 称 的 。 如 果 由 于 重复 计算 RLS 而 产生 的 数值 误差 ， 导致 P 矩阵 不 再 正定 
对 称 ， 则 算法 将 发 散 。 现 已 有 一 些 改进 算法 能 够 确保 P 和 矩阵 保持 正定 。 通 常 是 
采用 PP 和 矩阵 可 进行 Cholesky 分 解 或 UDU 分 解 的 二 次 方 根 法 。 这 些 方法 可 详 见 文 
mM [1]. 
观察 式 (1.20) AY, Fie ZH AT TM Se ME Ln) 和 当前 预测 误差 
的 乘积 相 加 来 实现 参数 估计 的 更 新 。 在 机 器 学 习 的 几乎 所 有 算法 中 将 会 发 现 全 部 
采用 这 种 结构 。 在 此 情况 下 ， 已 具有 一 个 实际 的 正确 值 ， 即 量 测 值 y(z) ， 因 此 
该 算法 称 为 监督 式 学 习 。 














(1. 20) 














1.3 LMS 算法 





在 信号 处 理 领域 中 ， 有 一 些 常用 技术 来 建 模 或 表征 通信 信道 的 动态 特性 ， 并 
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补偿 信道 效应 对 信号 的 影响 ， 这 些 技术 称 为 信道 均衡 和 回声 消除 。 目 前 关于 自 适 
应 信号 处 理 和 自 适应 滤波 已 有 许多 相关 著作 中] 。 上 述 技术 大 多 采用 最 小 均 方 
(LMS) 算法 来 辨识 信道 模型 的 系数 。 同 样 ， 正 如 LS 和 RLS 算法 所 述 ， 必 须 选 
择 一 个 合适 的 模型 结构 来 定义 通信 信道 的 动态 特性 。 在 信号 处 理 领 域 中 ， 通 常 采 
用 有 限 冲 激 响 应 (FIR) 滤波 带 作 为 描述 系统 的 基本 模型 结构 。 为 了 与 之 前 保持 
一 致 ， 在 此 将 信道 动态 性 表示 为 
y(n) =bou(n) +b,u(n-1) + +b,u(n-k) +0(n) (1.21) 
式 中 ，y(n) 为 时 间 步 长 n INU US a BO (Ta a b; 为 欲 估计 或 “学 习 ” 
的 滤波 器 系数 ; u(n) 为 输入 信号 。 
通常 ， 信 号 u(n) 是 需要 从 输出 信号 y(n) 中 恢复 的 通信 信号 。 在 此 ， 定 义 误 
差 信号 为 








e(n) =y(n) -y(n) (1.22) 
RP, y(n) = 中"(n)9， 这 是 与 式 (1.18) 中 预测 误差 相同 的 信号 。 
Æ LMS 算法 中 ， 定 义 成 本 函数 为 预测 误差 的 预期 值 ; 
J(n) =E[e(n)] (1.23) 
方 均 误差 项 可 表示 为 
e(n) =(y(n) -$"(n)0)? 
=y (n) -2y(n) 0+0 pn) b(n) (1.24) 
由 此 可 得 期 望 为 
Ele(n)]=Ely(n)] -26°EL y(n) b(n) ] +O7EL O(n) p(n) ]ð (1.25) 
接 下 来 ， 定 义 方差 0, = Ely ] WTR, DK LOW p =ELy(n) db 
(n) ]。 然 后 ， 定 义 信息 矩阵 为 R=E[$(n)g$"(n)]， 这 与 1.1 节 中 的 矩阵 几乎 
相同 。 若 系统 为 静态 统计 ， 即 统计 数据 不 变 ， 则 o,、p 入 项 为 常数 ， 而 作为 
变化 的 6 的 函数 的 成 本 函数 将 呈现 碗 状 。 成 本 函数 J(n) 可 写 为 
J(n) =o? -26"p +0'RO (1. 26) 
同样 ， 正 如 在 式 (1.4) 中 所 述 ， 为 得 到 最 佳 的 参数 估计 6 以 使 得 成 本 函数 
最 小 ， 需 取 成 本 函数 J (n) 相对 于 0 的 偏 导 数 ， 并 确定 使 偏 导数 为 零 的 9 i J 
(n) 的 偏 导数 可 表示 为 





aJ(n) _ 995 _ 90'p , "RO 
að 90 að a0 
然后 计算 式 (1.27) 中 右 侧 每 一 项 的 偏 导数 。 分 别 计算 每 项 ， 可 得 





(1.27) 





2 
e720 
ad 








2 30P_? 
a0 
RO ogé (1.28) 
að 
代入 式 (1. 27) ， 可 得 
aal ,RN (1. 29) 
a0 

求解 9， 即 可 得 到 参数 估计 的 最 优 解 为 

0* =R'p (1. 30) 








IN (1.30) 即 著名 的 维 纳 (Wiener) 解 。 但 式 (1.30) 中 的 维 纳 解 需要 计 
算 大 和 矩阵 R ASW, (AERA, ARBs (1.6) 中 的 LS 解 非常 相似 。 
若 要 估计 式 (1.25) 中 的 期 望 值 ， 则 可 通过 计算 下 式 得 到 平均 值 ; 


Rag = [E 6m") 








i 
Pag = [yD tr] (1.31) 


将 上 述 值 代入 式 (1.30), ， 即 可 得 到 式 (1.6) 所 给 出 的 LS 解 。 本 质 上 ， 
LMS 算法 的 维 纳 解 和 LS 解 完全 相同 。 

在 信号 处 理 领 域 ， 尤 其 是 自 适应 信号 处 理 中 ， 处 理 速度 非常 重要 。 此 外 ， 自 
适应 信和 号 处 理 中 ， 特 别 是 通信 应 用 中 的 模型 结构 具有 许多 参数 。 在 矢量 p(n) 中 
具有 200 项 的 参数 是 很 常见 的 ， 也 就 是 说 , fest (1.21) 中 的 =200。 在 此 情 
OLR, EE R 的 大 小 将 会 是 200 x200， 若 要 求解 式 (1.30) 中 的 逆 和 矩阵 ， 计 算 
量 非常 庞大 。 为 此 ， 通 常 采用 梯度 最 速 下 降 法 。 这 是 一 种 在 工程 领域 中 普遍 应 用 
的 技术 ， 与 用 于 求解 各 种 函数 的 零点 和 根 的 著名 Newton - Raphson 方法 (牛顿 - 
PFE IE) 非常 类 似 。 梯 度 最 速 下 降 法 是 一 种 近 代 方法 。 其 基本 思想 是 ， 
首先 从 一 个 参数 的 初始 假设 值 开始 : 为 简单 起 见 ， 通 常 选 择 为 零 。 在 信号 处 理 的 
术语 中 ， 该 参数 称 为 抽 头 权重 。 然 后， 不 断 迭 代 调 整 参 数 使 得 成 本 函数 沿 梯度 下 
降 。 设 参数 矢量 的 当前 估计 值 为 plno), BFE, MASKARE FA: 

6( next) = 0( now) -ug (1.32) 
RF, g 是 由 成 本 函数 对 式 〈1. 29) 中 定义 的 参数 估计 矢量 0 求 导 所 得 的 梯度 
值 ， 将 其 代入 式 (1.32) ,可 得 
6(next) =0(now) —p2p -u2R0( now) (1. 33) 
以 递归 形式 可 表示 为 
6(n +1) =0(n) -u2p -u2R O(n) (1. 34) 
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也 可 将 式 (1.34) BH 
O(n+1) =(1-aR)6(n) -ap (1.35) 
式 中 ，a =21。 

由 系统 理论 可 知 ， 如 果 (7- aR) 的 特征 值 小 于 1， 则 式 (1.35) 将 会 递归 
收敛 。 这 是 对 最 速 下 降 法 中 步 长 的 一 种 限制 。 在 1. 4 节 中 介绍 随机 吉 近 法 时 将 会 
继续 讨论 这 一 点 。 步 长 是 机 器 学 习 算 法 的 一 个 重要 参数 。 

在 式 (1.34) 中 递归 计算 的 难度 在 于 计算 统计 项 R 和 p， 其 中 ,RR 是 信息 矩 
阵 或 自 相 关 和 矩阵 ，p 是 互相 关 和 矩阵 。 这 些 和 矩阵 的 统计 数据 往往 是 未 知 的 ， 必 须 利 
用 式 (1.31) 进行 估计 。 然 而 ， 这 些 估计 值 计 算 强 度 大 ， 且 需要 直到 N 个 数据 
点 均 采 集 完 才能 计算 。 而 在 LMS 算法 中 提出 了 一 种 基于 每 次 取样 时 刻 的 单个 数 
据点 来 估计 这 些 矩 阵 的 方法 : 

R(n) =6(n)$"(n) 
p(n) =(n)y(n) (1. 36) 

该 方法 有 时 也 称 为 脏 梯 度 法 或 随机 梯度 法 。 具 体 思想 是 ， 只 需 沿 梯度 的 大 致 
方向 下 降 ， 而 无 需 完全 沿 着 梯度 方向 。 想 象 下 山 的 场景 ， 可 以 直接 下 山 ， 如 果 非 
常 陡峭 ， 也 可 像 滑 雪 者 一 样 选 择 迁 回 穿越 的 方式 。 无 论 采 用 何 种 方式 ， 最 终 会 到 
达 山 脚下 。 在 此 ， 将 式 (1.36) 给 出 的 RR 和 pp 估计 值 代入 式 (1.34) 的 递归 方 
程 中 ， 可 得 









































O(n +1) =0(n) +2ub(n) y(n) -2ub(n) 6" (n) O(n) (1. 37) 
此 时 ， 可 因 式 分 解 出 246$(n) ， 并 得 到 标准 的 LMS 递归 算法 : 
O(n +1) =0(n) +2ub(n) (y(n) -6"(n) O(n) ) (1. 38) 


切记 上 述 等 式 中 右边 括号 项 中 的 y(n) - 6" (n) O(n) AMR RHA, ob 
(n)9(n) 项 为 输出 y(n) 的 当前 预测 值 。 比 较 式 (1.20) 和 式 (1.38) 中 的 RLS 
算法 ， 可 知 更 新 形式 也 类 似 。 参 数 的 更 新 是 通过 将 前 一 估计 值 与 矩阵 矢量 和 预测 
误差 的 乘积 相 加 而 实现 的 。 事 实 上 ， 这 表明 在 固定 点 或 协 方差 矩阵 更 新 时 的 值 取 
st (1.20) 中 P(n+1) =P(n) Et, LMS 算法 等 效 于 特定 参数 集 时 的 RLS 算法 。 

目前 已 有 关于 LMS 算法 的 各 种 实现 和 收敛 结果 分 析 的 大 量 文献 ， 但 本 书 的 
重点 是 通过 机 器 基于 已 有 实验 数据 和 由 y(n ) 提 供 的 正确 值 知识 来 学 习 系 统 预 设 
模型 的 参数 。 新 的 参数 是 由 原 有 参数 加 上 数据 和 预测 输出 中 已 知 误差 的 乘积 而 形 
成 的 矢量 获得 的 。 














1.4 EJUB A 


EVLE A E PP ARRAY ETI, 事实 上 ， 这 是 一 种 与 RLS 和 
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LMS 算法 非常 相似 的 求解 函数 零点 的 方法 ， 同 时 也 是 与 强化 学 习 和 许多 机 器 学 
习 相 关 的 Q 学 习 算 法 的 基本 结构 。 随 机 台 近 的 早期 研究 工作 主要 是 来 自 于 Rob- 
bins 和 Monro!! 以 及 Wolfowitz'4! 。Kushner 和 Yin 出 版 了 关于 这 一 主题 的 一 本 好 
BAF) 。Monro 将 该 问题 曾 述 为 确定 连续 函数 M(0) =a 的 水 平 。 以 M(0) -a= 
0 形式 所 描述 的 问题 转换 为 求解 函数 零点 的 问题 。 如 果 已 知 函 数 的 梯度 ， 则 可 利 
用 著名 的 牛顿 -拉夫 逊色 代 法 来 确定 零点 ， 但 在 这 种 情况 下 ， 需 得 到 不 同 9 值 下 
函数 的 噪声 干扰 量 测 值 。 然 后 ， 在 零点 估计 方向 上 对 0 进行 微小 修正 。 

随机 逼近 法 和 稳定 性 证 明理 论 都 可 用 于 对 强化 学 习 中 一 些 基 本 算法 的 收敛 性 
证 明 。 假 设 与 前 面 所 述 问题 类 似 ， 可 得 函数 M(9) =(y(0) -$10) =0， 并 将 预 
测 误差 和 零点 处 误差 表示 为 e= (y -$0)。 随 机 逼近 算法 为 

60(n +1) =0(n) -a,(y-6'8) (1. 39) 

UP, a, 是 趋向 零点 的 可 变 步 长 ， 因 此 





023 a eA <a (1. 40) 
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本 章 的 目的 是 介绍 强化 学 习 。 文 献 【1] 是 一 本 关于 强化 学 习 的 很 好 的 入 门 
书籍 ， 在 此 ， 将 引用 该 书 中 的 符号 标记 。 强 化 学 习 的 目标 是 使 得 回报 最 大 化 。 强 
化 学 习 和 非 监 督 式 学 习 的 关键 部 分 就 是 回报 的 选择 。 本 章 将 讨论 一 些 后续 内 容 中 
将 会 涉及 的 强化 学 习 基 本 思想 。 在 此 ， 将 从 简单 的 n 辟 赌博 机 问题 开始 ， 进 而 提 
h MEL” PRCA ABE 



































2.1 简介 


强化 学 习 是 学 习 状 态 和 行为 之 间 的 映射 关系 ， 以 使 得 数值 回报 达到 最 大 
ME), 在 未 知 采取 何 种 行为 的 情况 下 ， 学 习 者 必须 通过 不 断 尝试 才能 发 现 采取 
哪 种 行为 能 够 产生 最 大 回报 。 这 些 行为 不 仅 会 影响 直接 回报 ， 还 会 影响 到 下 一 状 
态 以 及 后 续 所 有 的 回报 i111。 与 根据 外 部 监督 者 先 验 知识 提供 的 示例 而 进行 学 习 
的 监督 式 学 习 不 同 ， 强 化 学 习 是 从 交互 中 进行 学 习 T1 ]。 由 于 要 获得 能 够 完全 正 
确 表征 所 有 情况 的 期 望 行为 示例 是 不 切实 际 的 ， 因 此 学 习 者 必须 能 够 从 自身 经 验 
中 进行 学 习 [1。 综 上 ， 强 化 学 习 问 题 就 是 从 交互 中 学 习 以 达 到 期 望 目标 的 一 种 
方法 。 

学 习 者 称 为 智能 体 或 玩家 ， 而 与 智能 体 交 互 的 外 部 被 称 为 环境 。 智 能 体 应 选 
择 相应 行为 来 使 得 环境 所 表现 的 回报 最 大 化 。 假 设 一 个 离散 时 间 序 列 上 =0，1， 
2, 3，…。 在 每 一 时 刻 上 ， 智 能 


















































体 从 环境 中 接收 一 个 状态 5。 定 ， | [a ae Ba 

义 a 表示 智能 体 在 时 刻 + 所 采取 “| | ar 
tt 

的 行为 。 在 下 一 时 刻 ，a, 作 为 知 Ee 





能 体 行为 的 结果 ， 然 后 接收 数值 
MAR r, e 办 并 移动 到 新 状态 。 图 2-1 强化 学 习 中 的 智能 体 - 环境 交互 过 程 。 
Pa 如 图 2-1 所 示 。 在 每 一 时 转载 自 文献 [1], MIT 出 版 社 许 可 
刻 ， 智 能 体 完成 从 状态 到 每 种 可 能 行为 的 选择 概率 之 间 的 映射 。 该 映射 关系 
称 为 智能 体 策略 ， 记 为 7,， 则 7,(s,a) 为 s,=s Ala, =a 的 概率 。 强 化 学 习 方 
法 具体 反映 了 智能 体 如 何 根据 其 经 验 改 变 策略 ， 使 得 在 长 期 运行 过 程 中 接收 的 回 
报 总 量 达 到 最 大 化 1 。 

可 在 随机 博弈 框架 下 研究 强化 学 习 问 题 *1 。 这 一 框架 包含 两 个 更 为 简单 的 
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框架 : 马尔 科 夫 决策 过 程 (MDP) MEERA, MDP 包括 一 个 智能 体 和 多 个 
状态 ， 而 和 矩阵 博弈 包括 多 个 智能 体 和 一 个 状态 。 结 合 MDP 和 和 矩阵 博弈 ， 随 机 博 
弈 认为 是 具有 多 个 智能 体 和 多 个 状态 的 强化 学 习 问 题 。 









































2.2 n BERIA 








n 臂 赌博 机 问题 来 源 于 玩 老虎 机 ， 其 思想 是 同时 具有 n 条 辟 来 操纵 一 台 老 虎 
机 。 每 条 臂 的 动作 都 会 得 到 不 同 的 回报 ， 或 不 同 的 输赢 概率 。 问 题 的 关键 是 要 确 
E n 条 臂 中 的 哪 条 辟 会 提供 最 大 的 回报 。 因 此 ， 总 共 可 采取 n 种 行为 ， 其 中 ， 每 
种 行为 均 代 表 所 拉动 的 相应 臂 。 能 够 提供 最 大 回报 的 行为 称 为 贫 焚 回报。 如 何 通 
过 学 习 能 够 选择 拉动 可 获得 最 大 期 望 回 报 的 最 佳 辟 ? 或 许 应 尝试 多 次 拉动 每 条 
辟 ， 并 试图 计算 可 能 会 提供 最 大 回报 的 臂 的 平均 运行 回报 。 需 定义 每 条 臂 的 值 作 
为 该 臂 或 行为 的 预期 回报 。 在 这 种 情况 下， 拉动 一 条 给 定 的 臂 等 效 于 选择 一 种 行 
为 。 设 i 次 尝试 试验 的 行为 值 为 

ri tt) te try, 


Q,(a) = (2.1) 


NP, r; 表示 在 时 刻 ; 选择 臂 a 所 获得 的 回报 。 

然而 ， 总 共 进 行 了 1 KE, MRA k KÆR a 行为 所 执行 的 。 记 0” (a) 为 
BE a 行为 的 实际 值 。 选 择 采取 何 种 行为 的 原则 是 总 是 选择 贪 焚 行为 ， 除 非 选 择 随 
机 行为 的 概率 s 相对 很 小 。 这 些 贪 焚 行 为 是 在 能 够 获得 最 大 期 望 回报 的 特定 时 刻 
下 完成 的 。 然 而 ， 有 时 也 需 发 现 一 些 其 他 更 好 的 行为 选择 。 并 非 贪 禁 行为 的 一 些 
行为 的 随机 选择 称 为 探索 。 在 机 器 学 习 中 ， 探 索 程 度 和 开发 程度 之 间 存 在 着 一 种 
竞争 关系 。 

在 此 ， 以 简单 的 10 臂 赌博 机 为 例 。 首 先 为 每 条 臂 分 配 一 个 服从 均值 为 0、 
方差 为 1 正 态 随机 分 布 的 随机 回报 。 然 后 从 W (0, 1) 分 布 中 选取 10 个 数字 。 
这 10 个 数字 将 分 别 代表 10 条 臂 中 每 条 臂 的 真实 值 或 预期 回报 。 由 此 可 得 每 条 臂 
的 实际 回报 为 
Q*(a)=[-0.4 13 004 053 -0.15 -1.01 0.2 148 036 -0.5] (2.2) 

由 式 (2.2) 可 知 最 佳 的 行为 选择 是 行为 8， 且 0” (8) =1.48。 这 就 是 希望 
机 器 所 学 习 的 正确 解 。 同 时 ， 设 探索 变量 es =0.2。 这 意味 着 在 不 考虑 估计 回报 
而 任意 给 定 选 择 的 情况 下 ， 机 器 随机 选择 该 行为 的 机 会 为 20% 。 

通过 假设 由 选择 实际 回报 的 正 态 分 布 中 所 初始 设 定 的 每 条 臂 的 预期 回报 以 及 
由 式 (2.2) 中 给 出 的 实际 回报 来 开始 学 习 过 程 。 由 此 可 得 实际 回报 的 初始 估计 
值 为 
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Q.a (0) = [0.05 0.86 -0.96 0.73 1.98 -1.19 -0.66 0.82 1.97 -0.13] 
(2.3) 
根据 上 述 初始 估计 ， 可 知 应 选择 行为 5， 由 式 (2.3) 得 到 的 估计 值 为 0 
(5) =1.98， 但 行为 5 的 实际 值 为 0” (5) = -0.15， 因 此 初始 的 贪 焚 选 择 是 
一 个 非常 差 的 选择 。 机 器 选择 行为 5， 且 最 终 回报 是 从 一 个 期 望 为 -0.15、 方 差 
为 1 的 W (-0.15, 1) 随机 分 布 中 选择 得 到 。 机 器 所 得 到 的 回报 为 0， (5) = 
-0.76。 然 后 ， 机 器 根据 式 (2.1) 将 表 或 矢量 0., (a) 更 新 为 
O (1)= [0.05 0.86 -0.96 0.73 -0.76 -1.19 -0.66 0.82 1.97 -0.13] 
(2.4) 
接 下 来 ， 机 器 再 根据 由 式 (2.4) 给 出 的 最 新 回报 估计 值 来 选择 男 外 一 条 
臂 。 同 样 ， 进 行 贪 禁 选 择 并 选择 行为 9， 这 是 由 于 Qal) =1.97。 机 器 选择 行 
为 a=9， 且 机 器 得 到 的 回报 为 0,(9) =1.50。 由 此 可 得 Q.a (2) 的 估计 值 为 
Q.a (2) = [0.05 0.86 -0.96 0.73 -0.76 -1.19 -0.66 0.82 1.5 -0.13] 
(2.5) 
重复 上 述 过 程 ， 直 到 第 6 次 尝试 试验 时 ， 机 器 经 探索 而 任意 选择 了 行为 6， 
已 知 这 并 非 一 个 恰当 的 选择 ， 因 为 由 式 (2.2) 可 知 , 行为 a =6 的 平均 实际 回 
报 为 0" (6) = -1.01。 第 6 次 试验 中 机 器 选择 行为 =6 所 得 到 的 回报 为 > = 
1. 44。 继 续 上 述 学 习 过 程 ， 直 到 第 18 次 试验 ， 才 最 终 意识 到 行为 a =8 是 最 佳 选 
择 。 不 同 e 值 下 10 臂 赌博 机 问题 的 执行 结果 如 图 2-2 所 示 。 
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图 2-2 不 同 e 值 下 的 多 臂 赌 博 机 
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2.3 学习 结 构 


本 节 将 详细 阐述 强化 学 习 的 基本 结构 。 在 此 ， 以 一 个 单 智能 体 为 例 。 智 能 体 
或 机 器 人 处 于 某 一 特定 状态 ， 并 在 该 状态 下 可 采取 众多 行为 之 一 。 在 某 些 情况 
下 ， 存 在 一 个 特定 行为 使 其 在 特定 状态 下 具有 某 种 意义 上 的 最 优 。 有 时 会 称 这 一 
行为 为 贪 禁 行 为 ， 而 智能 体 在 各 个 状态 下 应 最 优选 择 的 一 组 行为 称 为 行为 规则 或 
策略 。 规 则 和 策略 这 一 术语 有 时 可 相互 蔡 代 ， 但 有 时 可 能 会 有 细微 的 不 同 含义 ， 
这 取决 于 具体 背景 。 如 果 在 某 一 特定 状态 下 智能 体 应 选择 相应 的 特定 行为 ， 则 称 
之 为 纯 策 略 ， 然 而 如 果 智 能 体 以 某 一 特定 概率 来 选择 一 个 行为 ， 则 称 之 为 分 布 式 
策略 或 混合 策略 。 例 如 ， 在 石头 -剪刀 - 布 的 游戏 中 ， 最 优 策略 是 以 各 为 1/3 的 
概率 来 选择 采取 各 自行 为 ， 但 如 果 提 前 已 知 对 手 会 选择 石头 ， 则 最 优 策 略 或 规则 
就 是 选择 布 的 纯 策 略 。 

将 这 些 行 为 定义 为 w s4(s, ) 。 每 一 行为 都 是 给 定 状 态 下 行为 集合 的 一 个 元 
素 。 智 能 体 采 取 的 可 能 行为 应 取决 于 其 所 处 状态 。 此 外 ， 还 具有 确定 的 可 能 状态 
数 。 记 为 s e S。 假 设 当 前 时 刻 为 :， 目 标 是 使 得 未 来 回报 达到 最 大 化 ， 可 定义 为 


R, =r, +r, to ter (2.6) 



































式 中 ,7 为 终止 时 刻 。 

在 具有 明确 终止 时 刻 的 划 些 情景 下 ， 这 种 回报 函数 效果 较 好 。 但 在 很 多 情况 
下 并 没有 一 个 终止 时 间 ， 可 能 会 一 直 继 续 ， 比 如 控制 应 用 中 的 调节 顺 。 在 上 述 情 
况 下 ， 没 有 明确 定义 的 终止 时 间 ， 通 常会 采用 未 来 折扣 回报 。 此 时 ， 回 报 可 定 
义 为 





oo 
= 2 buar tee k 
R, = a + Yr + YT + = > 7 Trk+l (2.7) 
k=0 


CH, y 为 折扣 因子 , HO<y<1, 

WER y 接近 于 0， 则 将 该 算法 称 为 短视 算法 ， 如 果 y 接近 于 1， 则 该 算法 可 
获得 最 大 化 的 未 来 回报 。 

在 强化 学 习 中 ,希望 当前 状态 是 对 今后 预测 的 一 个 好 的 基础 。 这 种 系统 称 为 
MDP (马尔 科 夫 决策 过 程 ) 。 若 当前 状态 是 能 够 对 下 一 步 或 未 来 行为 进行 决策 所 
需 的 全 部 条 件 ， 则 称 该 决策 系统 具有 马尔 科 夫 特性 。 下 一 步行 为 与 过 去 行为 无 
关 ， 而 只 取决 于 系统 当前 所 处 状态 。 人 例如， 跳棋 游 戏 只 取决 于 游戏 的 当前 状态 ， 
而 与 如 何 到 达 该 位 置 无 关 。 一 个 更 具有 工程 性 的 示例 是 ， 一 个 球 的 后 续 飞 行 仅 取 
决 于 其 当前 位 置 和 速度 ， 而 与 其 如 何 到 达 当 前 位 置 无 关 。 在 马尔 科 夫 域 ， 马 尔 科 
夫 特 性 定义 为 获得 某 一 特定 回报 ， 且 转移 到 完全 取决 于 当前 状态 和 行为 的 男 一 状 
态 的 概率 ， 记 为 Pris, =s', 14, =rls,,4,|。 有 反之 ,在 非 马 尔 科 夫 域 ， 这 一 概率 
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表示 为 Pr{s,;1 =s', Tred =rls,, Gy 58,15 A_-15°°" 5805 Ag | o 由 此 可 定义 采取 行为 
a 且 从 状态 s 转移 到 下 一 状态 * 的 概率 为 Ps = Pr js,,, Es l s,=s, a,=a}, 此 
外 ， 还 可 定义 期 望 回 报 为 RY. E| r,,,1s,=5, a, =a, 5,4, =8'} o 





2.4 值 函 数 


在 强化 学 习 框 架 中 ,， 值 函数 定义 了 一 个 特定 状态 的 价值 程度 。 衡 量 一 个 给 定 
状态 的 价值 程度 是 基于 从 该 状态 可 获得 的 未 来 期 望 回报 。 游 戏 中 的 玩家 所 采取 的 
策略 7(s,a) ， 是 指 在 状态 ;下 执行 行为 a 的 概率 。 状 态 * 的 价值 是 从 开始 执行 
策略 r(s,a) 所 获得 的 未 来 期 望 回 报 ， 可 表示 为 

V7(s) = E, {Rl s, =s} 2AA Syn saa |e he (2.8) 
k=0 

另外 ， 定 义 规则 或 策略 m 的 行为 值 函数 为 

ee a) a E, ik, |s, =S,a, = a} 
= E,{ eee Is, =S,a, = a} (2.9) 
k=0 


Q7(s, a) 和 V"(s) 稍 有 不 同 。Q"™(s,a) 表 示 在 状态 s 下 选择 行为 a 并 随后 采 
用 规则 或 策略 or 所 获得 的 期 望 回报 。 此 时 ， 值 函数 可 写 为 





V7(s) = E ÍR, |s, = s} z E,{ Vy hia |s, = st (2. 10) 
k=0 

= EAr t D is |s, = s} (2. 11) 

k=1 
= Ertra + ST has Is, = s} (2. 12) 

k=0 

也 可 表示 成 以 下 形式 : 
V7(s) = yas, a) > PE (RY + YE Seas DE- a) 
a s’ k=0 

= X a(s,a) X Pe (RS, + yV7(s')) (2.13) 


st (2.13) 中 右 侧 第 一 项 表示 在 状态 * 下 所 有 可 能 的 行为 ， 其 中 ,7(s,a) 

是 指 采取 某 一 特定 行为 的 概率 。 式 (2.13) 中 的 第 二 项 表示 所 有 可 能 的 下 一 状 

态 。 其 中 Ps, 是 指 假定 采取 行为 a 下 从 状态 s 转移 到 状态 *' 的 概率 。 右 侧 括号 中 

的 项 表示 直接 回报 Rs, 加 上 从 下 一 状态 开始 的 折扣 未 来 回报 GEX V (*))。 式 
(2.13) RIAT V (s) 的 贝尔 曼 方 程 。 同 理 ， 可 将 状态 -行为 值 函数 写 为 

Q(s, a) = Py (Ry + V7(s')) (2. 14) 
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2.5 最 优 值 函数 


在 此 ， 


同 理 ， 


因此 ， 


示 为 


那么 ， 


定义 最 优 状 态 -EKRA 

V* (s) =maxV7(s) VseES (2. 15) 
最 优 状 态 -行为 值 函 数 定义 为 

O”(s，a) = maxQ™ (s, a) (2. 16) 


需 寻 找 一 种 可 获得 最 大 回报 的 策略 或 行为 选择 。 由 此 ，Q(s, a) 可 表 





RCs, a) 7 E{r a yS has ls, = 5, a, = a} (2. 17) 
k=0 
最 优 值 为 
Q” (s, a) =Etr, 44 +yV* (s141) Is, =S, a, =a} (2. 18) 


Q* (s, 4) 表示 采取 行为 a 而 得 到 的 直接 回报 7, ,1， 并 随后 采用 最 优 策略 。 


Ap, fE 








数 可 表示 为 如 下 形式 : 
V* (s) = s OTRE) (2. 19) 


值 函数 和 状态 -行为 函数 决定 了 未 来 结果 ， 也 称 为 未 来 期 望 回 报 。 因 此 ， 如 
果 已 知 从 下 一 状态 开始 的 最 大 未 来 回报 ， 那么 只 需 在 当前 选择 最 佳 行为 。 将 式 
(2.19) BA 





V*(s) = max Q7* (s) 


aeA(s) 


= max Ene (Rn = 8. O, = 4} 


oo 

= k 

= max Ez: f > 7 Tiskel Is, = 5, a, = as 
aeA(s) 120 


o0 

= k 

=. ee Eqs fra +y dy Ti+k+2 Is, = 5, Q, = a} 
k=0 


同 理 ， 可 得 


aeA(s) 
= mar Bex Year +yV" (s1) Is, =S,a, = a} 
= max 之 Pl (RS + YV" (sin1)) (2. 20) 
Q* (s, a) =Elr,,i +y maxo * eer a’) Is, =S, a, =a} (2. 21 ) 


2.5.1 网 格 示例 
以 一 个 3 x3 网 格 为 例 ， 如 图 2-3 所 示 。 在 任意 起 始 时 刻 ， 机 器 人 或 智能 体 
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可 位 于 9 个 单元 格 之 一 。 接 下 来 ， 从 集合 ae 
[up, down, right, left] 中 选择 行为 。 一 旦 机 器 A 


|= +10 








人 或 学 习 智 能 体 移 动 到 单元 格 1， 则 会 立即 跳 
转 到 单元 格 9 并 得 到 回报 + = +10。 若 智能 体 4 
到 达 边 界 ， 则 会 停留 在 当前 单元 格 并 得 到 惩罚 
r= -1。 根据 式 (2.20) 可 得 到 9 个 方程 和 9 7 8 9 
个 未 知 数 。 采 用 下 列 参数 来 求解 式 (2.20): 
未 来 回报 的 折扣 因子 y = 0.9， 行 为 选择 策略 a 图 2-3 ”网 格 示例 

(s, a) =0.25。 也 就 是 说 ， 智 能 体 将 以 相同 概率 任意 选择 向 上 、 向 下 、 向 左 或 
向 右 。 即 有 4 种 可 能 行为 可 实现 从 某 一 特定 状态 转移 。 只 有 当 智 能 体 移 动 到 状态 
1 且 以 100% 概率 跳 转 到 状态 9 时 才 会 得 到 + 10 唯一 回报 。 即 除了 rg = 10、 
ris" = 10, rig' =10, rif" =10 之 外 ， 其 余 回报 均 为 0， 另 外 ， 当 智能 体 到 达 

Hh a= a a a n o a a d Pi = 


-1 rg =l, ros = -1。 转 移 概率 如 下 : 



































P$ =1, Py =1, PR =1, PM =1 
P% =1, P5" =1, PA =1, P3" =1 
P=1, Pg™ =1, Py =1, P" sl 
Pel, Peal, Peels Peal 
P 吕 =1，P8 =1, PH =1, Py =1 (2. 22) 
PE =1, Peal, Pa =l, Pa" =1 
PR=1, PR" al, Peal, PH" sl 
PB =1, Py =1, Peal, P" =1 





P% =1, Pg" =1, P% =1, Poy =1 
将 上 述 概率 代入 式 (2.13) 可 得 每 个 状态 的 9 个 方程 式 和 9 PAR Fr 
具体 写 出 第 一 个 状态 的 第 一 个 方程 ， 切 记 r(s,a) =0. 25， 表 示 以 相同 概率 采取 
每 种 行为 且 y=0.9。V"(1) 方 程 是 一 种 特殊 情况 ， 这 是 因为 不 管 采取 何 种 行为 ， 
总 是 转移 到 状态 9 E = +10。 由 此 ， 可 得 





V7(1) = ¥ (0.25) (EPCs + yV7(9)))) (2. 23) 
a=l 9 
其 中 
> Pty (rg) + yV (9)) = r% +0.9V7(9) (2. 24) 
9 


为 便于 表示 ， 将 上 标 置 于 三 ， 则 第 一 个 方程 如 下 : 
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V(1) =10 +0.9V(9) (2. 25) 
接 下 来 ， 对 状态 2 执行 同样 步 又。 在 此 情况 下 ， 不 会 自动 跳 转 到 其 他 状态 ， 
但 可 移动 到 其 他 4 个 状态 中 的 一 个 。 注 意 触 碰 边 界 将 会 获得 值 为 -1 的 负 回报 。 
这 时 可 得 到 
V(2) = È (0.25) (È Ps, (r8 + yuo(s'))) 


a=l 


= 0. 25( (È PH (rg, + yV(s Py )+ 0. 25( (> Paown ( ore + yV(s') ) ) 
+0. 25 ( > Pee + yV(s w )+ 0. 25( > pea + yV(s i ) ) (2. 26) 


察 式 (2.26) 右 侧 的 概率 ， 可 知 取 值 为 1 或 0。 Pla, ARP, H 
Pre eater E 此 外 ， 若 智能 体 试图 向 上 移动 ， 
将 会 触 碰 边 界 而 得 到 -1 的 回报 。 式 (2.26) 可 重 写 为 

V(2) =0.25( -1+0.9V(2)) +0. 25(0 +0.9V(5) ) +0. 25(0 +0. 9V(1) ) 
+0. 25(0 +0.9V(3)) 

=0.225V(1) +0. 225V(2) +0. 225V(3) +0. 225V(5) -0.25 

为 进一步 实验 验证 ， 列 写 V (3) 的 方程 。 在 此 情况 下 ， 若 智能 体 向 上 或 向 
右 移动 ， 都 将 会 触 碰 边界 而 得 到 -1 的 回报 。 由 此 可 得 
V(3) =0.25( -1+0.9V(3)) +0. 25(0 +0.9V(6) ) +0.25( -1+0.97(3)) 
+0. 25(0 +0. 9V(2)) 

=0. 225V(2) +0.45V(3) +0. 225V(6) -0.5 

不 断 执行 确定 每 个 状态 下 相应 方程 的 过 程 ， 并 以 矩阵 形式 列 写 方程 为 4V = 
B, HF, EAT: 








1 0 0 0 0 0 0 0 -0.9 
-0.225 0.775 一 0. 225 0 =0. 225 0 0 0 0 
0 -0.225 0.55 0 0 一 0. 225 0 0 0 
一 0. 225 0 0 0. 775 一 0. 225 0 一 0. 225 0 0 
A= 0 一 0. 225 0 一 0. 225 1 一 0. 225 0 一 0. 225 0 
0 0 一 0. 225 0 -0.225 0.775 0 0 一 0. 225 
0 0 0 一 0. 225 0 0 0.55 一 0. 225 0 
0 0 0 0 一 0. 225 0 -0.225 0.775 一 0. 225 
L 0 0 0 0 0 一 0. 225 0 -0.225 0.55 
JERE BOA 


B? =[10 -0.25 -0.5 -0.25 0 -0.25 -0.5 -0.25 -0.5] 

求解 包含 9 个 方程 和 9 个 未 知 数 的 方程 组 ， 得 到 每 个 状态 下 的 实际 值 如 下 : 

Vi=[8.85 2.5 -0.07 2.5 0.92 -0.44 -0.07 -0.44 -1.27] 
(2,97) 
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需 注意 每 个 状态 的 值 函 数 是 折扣 的 未 来 回 
报 。 因 此 ,状态 1 所 获得 的 值 不 是 10 而 是 
8. 85， 这 是 由 于 并 不 知道 智能 体 随后 会 从 状态 9 
转移 到 何 处 。 网 格 中 每 个 状态 的 值 如 图 2-4 
所 示 。 

随 着 不 断 深入 研究 机 器 学 习 算 法 ， 发 现 这 
是 一 个 非常 重要 的 结论 。 从 某 种 程度 而 言 ， 需 
要 学 习 状 态 值 。 此 外 ， 即 使 是 相对 简单 的 随机 
游戏 ， 也 需要 已 知 大 量 信息 来 求解 状态 值 。 在 
此 ， 需 要 基于 所 采取 的 具体 行为 来 获悉 状态 到 状态 之 间 的 所 有 转移 概率 ， 并 且 在 
这 种 情况 下 相对 容易 ， 而 转移 概率 为 1 或 0。 此 外 ， 还 需要 已 知 每 个 状态 下 所 有 
的 可 能 行为 以 及 先 验 回 报 。 

机 器 学 习 的 目标 是 尝试 自动 学 习 在 给 定 任意 初始 状态 下 如 何 选择 一 条 最 优 路 
径 ， 从 而 可 获得 最 大 回报 。 一 旦 看 到 上 述 游戏 ， 就 能 够 立刻 找 出 最 优 路 径 ， 而 对 于 
该 游戏 却 一 无 所 知 。 如 何 才能 学 习 识 别 到 最 优 路径 呢 ? 或 许 会 尝试 几 步 直到 最 终 达 
到 状态 1 并 获得 大 回报 。 这 就 是 希望 智能 体 如 何 最 终 学 习 到 实现 上 述 目标 的 。 



































到 2-4 每 个 状态 下 的 值 





























2.0 MDP 


MDP 1 可 表示 为 一 个 五 元 组 (S, A, T, y, R), ， 其 中 ，$ 为 状态 空间 ; A 
为 行为 空间 ，7: SxAxS— [0, 1] 为 转移 函数 ; ye [0, 1] 为 折扣 因子 ; R: 
S xA x5S 一 为 回报 函数 。 转 移 函 数 表示 在 给 定 当前 状态 和 行为 下 ， 转 移 到 下 一 
状态 的 概率 分 布 : 

PTs,a,s)=1 Vses, VaeA (2. 28) 
s'es 


式 中 ，s' 表 示 下 一 时 刻 的 可 能 状态 。 回 报 函 数 表示 给 定 当 前 行为 和 状态 下 在 下 一 
状态 得 到 的 回报 。MDP 具有 如 下 的 马尔 科 夫 特性 : 玩家 的 下 一 状态 和 回报 仪 取 
决 于 玩家 的 当前 状态 和 行为 。 玩 家 策略 T: SA 定义 为 给 定 状 态 下 玩家 行为 的 
概率 分 布 。 玩 家 策略 mr (s, a) 应 满足 : 

X rls, a) =1 Vses (2.29) 


aed 


在 任 一 MDP 中 ， 对 于 玩家 而 言 ， 都 存在 一 个 确定 的 最 优 策略 ， 其 中 ，77* 
(s, a) e 10, 1}'4), MDP 中 玩家 的 目标 是 获得 最 大 化 的 期 望 长 期 回报 。 为 评估 
玩家 策略 ， 需 具有 如 下 的 状态 - 值 函 数 ， 当 玩家 从 状态 s 开始 并 随后 执行 策略 7 
时 ， 在 该 策略 下 状态 * 的 值 (或 状态 -ERRO 定义 为 预期 回报 。 由 此 ， 状 态 - 
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T 
Jr(s) =E rt Dy Peg | se (2. 30) 


式 中 ,7 了 为 最 终 时 刻 ; 1 为 当前 时 刻 ; rpe NE ktl 时 刻 得 到 的 直接 回报 ; 
ye [0, 1] 为 折扣 因子 。 

在 式 (2.30) 中 ， 若 是 一 个 无 限期 任务 ， 则 To ， 从 而 使 得 该 任务 将 无 限 
期 运行 。 若 是 情景 任务 ， 则 了 定义 为 终止 时 刻 ， 即 每 个 情景 都 在 时 刻 了 终止 。 
在 此 ， 将 每 个 情景 结束 时 的 状态 称 为 终止 状态 sy。 在 终止 状态 ， 状 态 - 值 函 数 
总 为 0， 从 而 使 得 sr) =0 VsrsS。 一 个 最 优 策略 m“ 将 使 得 玩家 在 所 有 状态 
下 可 获得 最 大 化 的 折扣 未 来 回报 ， 从 而 使 得 

V” (s) BV” (s) Va, VseS (2.31) 

st (2.30) 中 某 一 策略 下 的 状态 - 值 函数 可 重 写 为 一 个 称 为 贝尔 曼 方程 的 
递归 方程 5]， 

V7(s) = OTs, a) DT, a, s')(R(s, a, s') + yV7(s')) (2.32) 


st, T(s, a, s') ae (Spa, =S on a, =a} 为 在 时 刻下 给 定 当 前 状态 sp =s 和 
行为 w =a 时 下 一 状态 的 概率 s, =5', MM R(s, a, s') =Elr,,, ls} =s, a, =a, 
Spay = 8! 为 给 定 当前 状态 * 和 行为 a 下 在 状态 *' 所 得 到 的 预期 直接 回报 。 若 玩家 
从 状态 s 开始 并 随后 执行 最 优 策略 rr” ， 则 可 得 最 优 状态 - 值 函 数 ， 记 作 V* 
(s)。 最 优 状态 - 值 函数 也 称 为 贝尔 曼 最 优 方程 : 

V*(s) = max 2, T(s, a, s')(R(s, a, 8’) + yV* (s")) (2. 33) 


4079 — EK 数 可 定义 为 在 状态 ;选择 特定 行为 a 并 随后 执行 策略 而 得 到 预 
期 回报 。 行为 - 值 函 数 0"(s,a) 如 下 : 


0Q"(s, a) = ATS: a, s')(R(s, a, s') + yV” (s')) (2.34) 

















如 果 玩 家 在 状态 * 选择 行为 a 并 随后 执行 最 优 策略 oo”, WITA - 值 函数 就 
ERITH -ERZ Q" (s, a): 


Q”(s,a) = RTs, a, s')(R(s, a, s') + yV* (s')) (2. 35) 





在 终止 状态 y， 状 态 - 值 函 数 总 为 0， 从 而 使 得 0(s@, a) OV sp eS. 
2.7 学 习 值 函数 


在 2.6 节 中 ,已 知 通过 求解 9 个 方程 和 9 个 未 知 数 可 计算 每 个 状态 的 值 函 
数 。 同 时 也 发 现 ， 即 使 是 相对 简单 的 示例 ， 仅 仅 列 写 所 有 方程 都 显得 非常 繁琐 。 
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本 节 将 介绍 一 种 迭代 计算 算法 来 求解 上 述 值 函数 方程 ， 这 种 方法 更 广泛 地 称 为 动 
态 规 划 。 假 定 已 知 转移 概率 、 行 为 策略 和 回报 ， 即 可 由 式 (2. 13) 计算 状态 的 
值 。 已 知 值 函数 方程 表示 为 矩阵 形式 AV = B， 在 此 ， 可 将 其 表示 为 4V -有 8 =0， 
由 此 可 通过 了 =4-18 进行 求解 ， 且 大 多 采用 高 斯 消 元 法 求解 该 方程 。 接 下 来 就 
是 编写 算法 以 得 到 47 -B=0 的 零点 。 任 一 脏 梯 度 算 法 都 可 以 实现 。 大 多 数 从 事 
技术 工作 的 人 都 遇 到 过 这 类 情况 ， 有 时 也 尝试 通过 试验 和 误差 来 得 到 函数 参数 。 
基本 思想 是 迭代 求解 式 (2. 36) 。 在 此 ， 不 必 列 写 方程 组 ， 但 需要 编写 机 髓 学 习 
算法 来 实现 。 此 外 ， 还 需 将 该 学 习 算 法 构造 成 梯度 搜索 算法 来 得 到 函数 的 零点 。 
更 为 正式 的 表述 是 ， 递 归 算 法 的 稳定 点 搜索 ， 这 类 似 于 随机 到 近 法 。 
算法 2.1 值 函数 迭代 算法 


初始 化 V(s) =0， 对 于 所 有 ses 
重复 

设 A=0 

对 于 每 个 ses; 

vV(s) 


V(s) > È ms, a) $, Pa (Ry + Vis") 























A=max (A, |v-V (s) |) 
直到 A <06， 对 于 所 有 ses (9 为 一 个 小 的 正 数 ) 


算法 的 工作 原理 如 下 : 初始 化 值 函 数 为 0， 即 V(s) =0 Ys。 然 后 计算 式 
(2.13) 并 不 断 重复 ， 为 了 便于 计算 ， 设 : 
Vin(s) = Das, a) 2, Pi (Rev + yV,(s')) (2. 36) 


这 可 给 出 每 个 状态 下 值 的 初始 假设 值 。 注 意 ， 必 须 事先 已 知 7(s, a), Po 和 
R ,然后 计算 差 值 A=V ,| -WV。 一 旦 这 个 差 值 足 够 小 , 则 立刻 停止 式 (2.36) 的 
递归 。 一 旦 达到 V, - 包 二 0, 则 式 (2.36) 的 递归 算法 达到 一 个 稳定 点 。 上 述 值 
递归 算法 如 算法 2. 1 所 示 。 设 A =0. 001, 则 该 算法 达到 如 下 结果 之 前 需 迭 代 运 行 
40 次 : 
由 =[8.85 25 -0.07 25 0.92 -0.44 -0.07 -0.44 -1.27] (2.37) 
该 结果 与 式 (2.27) 的 精确 解 相 同 。 


2.8 策略 迭代 


2.7 节 中 ,介绍 了 一 种 迭代 算法 来 求解 n 个 方程 入 n 个 未 知 数 的 问题 以 计算 
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每 个 状态 的 值 。 然 而 ， 需 利用 已 知 状态 转移 矩阵 Ps,、 已 知 回报 Rs 和 已 知行 为 
策略 7(s, a) 来 进行 计算 。 但 是 ， 如 何 确定 是 否 是 一 个 能 够 提供 更 大 回报 的 更 好 
策略 ? 如 果 搜索 所 有 可 能 策略 ， 是 否 可 以 找到 一 个 具有 更 高 回报 的 策略 ， 且 在 该 
策略 下 状态 的 值 为 多 少 ? 本 方 将 介绍 一 种 策略 迭代 算法 。 该 算法 可 计算 状态 的 值 
以 及 最 优 行为 策略 。 已 知 式 (2.14) 中 的 状态 - 行为 值 函数 为 





Ols, a) = LP (Ry +y) (2. 38) 
目标 就 是 寻找 使 得 0(s, a) 最 大 的 策略 ， 即 
Q*(s, a) = max $ Pi (Ry + YV(s')) (2. 39) 


上 述 算法 包含 两 个 阶段 ， 在 第 一 阶段 ， 根 据 值 迭代 算法 计算 每 个 状态 的 值 ; 
第 二 阶段 ， 计 算式 (2.39) 并 搜索 最 大 化 行为 。 如 果 有 多 个 行为 可 产生 等 价 的 
最 大 化 结果 ， 那 么 为 每 个 行为 分 配 同等 概率 。 例 如 ， 如 果 两 个 行为 均 得 到 相同 的 
最 大 化 结果 ， 则 每 个 行为 的 概率 为 50% 。 在 之 前 的 网 格 示例 中 已 执行 了 策略 迭 
代 算 法 2.2。 

算法 2.2 策略 迭代 算法 

1. 初始 化 V(s) =0， 对 于 所 有 ses 
2. 策略 评价 
3. 重复 
4. A=0 
5 
6 
7 























. 对 于 每 个 se 5. 
. v—V(s) 


全 


8. A=max(A, |v-V(s) |) 

9. 直到 A <0， 对 于 所 有 ses (0 为 一 个 小 的 正 数 ) 
10. 策略 改进 

11. 重复 

12. 对 于 每 个 se 5. 

13. b<7(s) 


14. 7(s) —max, by P% (RS + yV(s’)) 


15. 若 5 关 7 (s)， 则 返回 到 策略 评价 
16. 直到 b 关 7 (s) 
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这 次 得 到 了 不 同 策略 昌 值 函数 大 幅 提 高 。 图 2-5 给 出 了 每 个 状态 的 策略 结果 
及 其 相应 概率 。 例 如 ， 状态 1 具有 4 个 转移 方向 ， 且 选择 各 行为 的 概率 均 相 同 ， 
这 是 由 于 无 论 选 择 哪 个 行为 ， 下 一 状态 总 是 状态 9。 而 对 于 状态 2， 最 佳 行为 总 
是 100% 地 采取 向 左 的 行为 并 移动 到 状态 1。 在 状态 5 时 ， 向 上 和 向 左 行为 的 概 
率 均 为 30% ( 见 图 2-6) 。 根 据 新 的 策略 ， 每 个 状态 的 值 可 计算 如 下 : 

Vi= [24.4 22.0 19.8 22.0 19.8 17.8 19.8 17.8 16.0] 














+10 


A 一 一 一 一 一 | 一 +10 


—~ 24.4 + 22.0 19, 
| aA 
\ | 
22.0 19.8 17.8 


\ 1 


A A 
19.8 17.8 16.0 


图 2-5 所 得 的 最 优 策略 图 2-6 基于 最 优 策略 所 得 的 状态 值 















































值得 注意 的 是 ,与 式 (2.37) 中 的 结果 相 比 ， 每 个 状态 值 都 有 显著 提高 。 
这 是 因为 现在 所 计算 的 状态 值 是 基于 最 优 行为 策略 的 。 











2.9 时间 差分 学 习 


强化 学 习 的 基本 思想 是 学 习 最 优 策 略 和 行为 。 在 2.7 节 中 是 根据 行为 策略 
7(s, a)、 状 态 转 移 概 率 PO 和 回报 Re, 不 断 迭 代 学 习 ， 或 者 说 是 进行 精确 计算 。 
2.8 节 中 介绍 了 搜索 最 优 策略 的 策略 迭代 算法 ， 且 了 解 了 最 优 策略 如 何 提高 状态 
值 。 然 而 ， 在 上 述 情况 下 ， 必 须 已 知 状态 转移 概率 Ps 和 回报 Re,。 本 市 将 介绍 
一 种 仅 需 根 据 观测 从 环境 中 所 获得 的 回报 来 学 习 状 态 值 的 机 器 学 习 算 法 。 

首先 ， 回 顾 作为 未 来 期 望 回报 的 状态 值 的 原始 定义 ， 即 式 (2.13); 





V"(s) = E, AiR, |s, = s} = E,{ Pyro |s, = st (2. 40) 
k=0 

= EL At a + Yaa Is, = a (2. 41) 

k=1 
7 Bal ts R YÈ Vrak Is, = s} (2. 42) 

k=0 

然后 可 表示 为 下 列 形式 : 

VCs) =r, tYV"(s') (2. 43) 

















值得 注意 的 是 ， 状 态 的 值 需 采 用 行为 策略 m 来 确定 。 如 果 已 知 转移 概率 和 
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回报 ， 那 么 就 可 以 根据 2.5.1 节 中 所 示 通 过 推导 n 个 方程 入 n 个 未 知 数 或 根据 
2.7 节 所 示 通 过 动态 规划 来 求解 状态 的 值 。 然 而 ， 在 本 节 情 况 下 ， 转移 概率 PY 
和 回报 Re, 均 未 知 。 因 此 ， 在 此 将 采用 一 种 类 似 于 LMS 算法 的 搜索 方法 。 首 先 ， 
从 每 个 状态 的 值 函 数 的 初始 估计 开始 。 在 实际 应 用 中 ， 通 常 将 值 函 数 初始 化 为 
0。 将 式 (2.43) 重新 表示 为 











e€ =r, 1 +YV(s') -Js) (2. 44) 
然后 ， 更 新 状态 值 的 估计 : 
Vais) =V.(s) talr,,, +yV(s’) -V(s) J (2. 45) 


这 与 式 (1.38) 中 定义 的 LMS 算法 结构 相同 。 更 新 过 程 就 是 在 前 一 状态 值 
上 增加 学 习 率 a (REK) 与 预测 误差 的 乘积 。 有 具体 的 算法 步骤 如 下 : 


算法 2.3 时间 差分 算法 

初始 化 V(s) =0， 对 于 所 有 se5S 
初始 化 * 为 任意 值 

重复 

对 于 每 个 步 长 时 刻 : 

根据 策略 m (s) 选择 行为 a 

得 到 回报 + 和 下 一 状态 s 
Vis)<V(s) +a(r+yV(s’) -V(s) ) 


直到 完成 所 需 步 长 个 数 或 * 达到 终止 状态 





将 上 述 算法 应 用 于 之 前 的 网 格 示 例 中 。 初 始 化 各 个 方向 上 的 行为 概率 相等 ; 
因此 正如 2.7 节 所 示 , 7(s, a) = 0.25, 与 之 前 的 示例 中 一 样 ， 设 折扣 因子 y = 
0.9， 并 设 学 习 速 率 a =0. 001。 和 迭代 运行 算法 100 万 步 后 ， 可 得 状态 的 值 为 

Vi=[8.89 2.45 0.04 2.56 0.97 -0.37 -0.13 -0.42 -1.27] 
而 状态 的 实际 值 为 
Vi=[8.85 2.5 -0.07 2.5 0.92 -0.44 -0.07 -0.44 -1.27] 

E, AAT SEERA E. EERE, EA 
状态 转移 概率 P 和 回报 RS, R m ARERR RRA ERR f RREA, 
而 并 没有 真正 执行 。 在 本 节 中 ,智能 体 必须 多 次 执行 示例 来 学 习 状 态 的 值 ， 在 值 
迭代 情况 下 ， 仅 需要 40 次 迭代 就 能 够 获得 值 隐 数 的 精确 估计 ， 而 本 节 中 ,算法 
要 执行 100 万 次 步 长 才能 得 到 回报 ， 然 后 对 状态 值 函 数 进行 估计 。 


/ 
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2.10 状态 -行为 函数 的 时 间 差 分 学 习 


在 本 节 ， 要 估计 状态 -行为 函数 0(s, a) 在 此 ,采用 与 2.9 节 相同 的 算法 。 
然而 不 同 的 是 ， 本 节 将 采用 e - 贪 禁 行 为 选择 过 程 。 因 此 ， 不 是 仅 基 于 当前 策略 
来 选择 行为 ， 而 是 根据 状态 -行为 表 中 的 最 大 值 来 选择 下 一 行为 。 这 类 似 于 nn 辟 
赌博 机 问题 。 然 后 以 一 个 较 小 概率 e 来 随机 选择 男 一 行为 ， 这 就 是 探索 阶段 。 递 
归 方 程 如 下 : 

Qrar Css a) =Qp (Spo a) FOC 41 YO S241 1) -Qi(si, a) ) (2.46) 

首先 ， 将 0 表 中 的 值 初始 化 为 随机 数 。 在 网 格 示例 中 ，0 表 为 一 个 9 x4 的 
表 。 此 时 ， 随 着 行为 策略 采用 贪 梦 行 为 ,， 算法 将 收敛 到 最 优 0 表 。 设 a=0.1， 
y =0.9。 算 法 执行 100 万 步 。 得 到 的 结果 见 表 2. 1。 

表 2.1 时 间 差 分 0 表 学 习 结果 






























































行为 
状态 

1È F 右 左 
1 22.7 22.6 22.8 22.7 
2 17.1 16.0 16.4 20.7 
3 15.3 14.1 15.1 18.5 
4 20. 7 16.4 16.0 17.6 
5 18.7 14.4 14.2 18.0 
6 16.0 12.8 13.5 16.7 
7 18.5 15.1 14.3 15.5 
8 15.5 13.7 12. 6 16.4 
9 14. 8 11.6 11.9 13.9 











算法 2.4 时间差 分 状态 -行为 算法 
. 初始 化 0(s, a) 为 任意 值 ( 随机 数 ) 
. 初始 化 状态 s 为 任意 值 
. 根据 e 贪 末 策略 来 选择 行为 a 
重复 
. 执行 行为 a 并 转移 到 下 一 状态 *'， 得 到 回报 > 
. 利用 6 贪 禁 策 略 来 选择 状态 ;' 处 的 下 一 行为 a 
. O(s, a)—Q(s, a) talrt+yQ(s', a’) -0(s, a) | 
iaz=a', s=s' 


. 直到 完成 特定 步 长 数 或 * 达到 终止 状态 








No 一 
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注意 ， 最 优 行为 策略 的 值 为 
V” =[24.4 22.0 19.8 22.0 19.8 17.8 19.8 17.8 16.0] 

不 管 采取 何 种 行为 ， 状 态 1 都 具有 相同 的 值 ， 这 是 因为 从 状态 1 开始 ， 智 能 
体 总 是 移动 到 状态 9 并 得 到 + 10 的 回报 。 在 上 述 仿真 中 ， 状 态 1 共 访 问 了 
200000 次 左右 且 每 个 行为 均 采 用 了 大 约 45000 次 ， 而 状态 - 值 函 数 的 估计 值 
Q(s, a) = 22.7。 若 考察 状态 2， 可 知 向 左 行为 的 最 大 估计 值 为 0(2, left) = 
20.7。 因此 ， 在 状态 2 时 ， 最 佳 选 择 是 向 左 的 行为 。 继 续 执行 表 中 的 其 他 行为 ， 
并 选择 期 望 值 最 大 的 行为 。 为 此 ， 智 能 体 在 执行 网 格 示例 时 ， 不 断 检测 当前 状 
aS, FRE 0 表 中 查询 可 获得 最 大 回报 的 行为 ， 如 果 是 一 个 合理 的 智能 体 ， 则 会 
采取 具有 最 大 回报 的 行为 。 











2.11 OF 


Q 学习 是 一 种 行 之 有 效 的 强化 学 习 方法 。 首 次 在 文献 [6] 中 提出 ， 并 在 文 
献 [7] 中 给 出 了 基于 随机 逼近 的 算法 稳定 性 证 明 。0 表 的 递归 方程 形式 如 下 : 
Orai CSis 41) =Q, a) ACT, 41 +y maxQ, (siyi, a) -Qi(s,, a,)) 





(2.47) 

该 算法 非常 类 似 于 之 前 的 时 间 差 分 学 习 算 法 。 主 要 不 同 之 处 在 于 在 计算 
maxs Qi(si41， a) 时， 采用 贪 末 策略 搜索 算法 而 不 是 探索 方法 。 同 样 ， 从 任意 初 
始 化 随机 状态 * 开始 ， 并 任意 初始 化 0 R Q(s, a). HET € 贪 焚 行 为 选择 策略 来 
选择 一 个 行为 ， 然 后 转移 到 下 一 状态 ;' 并 得 到 一 个 回报 。 之 后 ， 在 计算 预测 误差 
rai +Y max,Q;(5,41;, a) -Q,(s,, a) T, DERN e AERE, MEE Q 表 中 
搜索 最 大 值 。 具 体 步 又 如 算法 2.5 所 示 : 

算法 2.5 OFF 

初始 化 Q(s, a) 为 任意 值 (随机 数 ) 

初始 化 状态 s 为 任意 值 

重复 

基于 e 贪 禁 策略 来 选择 行为 a 

执行 行为 a 并 转移 到 下 一 状态 s， 得 到 回报 

Q(s,a)<-Q(s,a) +a[r +ymax,Q(s'a’) -Q(s,a)] 











ss 


直到 完成 特定 步 数 或 * 达到 终止 状态 
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同样 ， 设 c =0.1，y =0.9， 并 运行 算法 100 万 步 。 可 得 到 与 之 前 几乎 相同 
的 O 表 。 再 次 运行 该 算法 ， 但 这 次 设 探索 参数 e(k) =e(0) + (1 +0.0000015) ， 
其 中 , 天 为 算法 执行 步 数 。 由 此 可 得 最 后 的 结果 见 表 2. 2。 在 此 情况 下 ， 算 法 收 
敛 且 非常 接近 于 最 优 值 。 
表 2.2 时 间 差 分 O 表 学 习 结 果 














ee 行为 

上 下 右 左 
1 23.6 23.7 24.1 23.8 
2 18.3 17.2 16.7 21.7 
3 16.3 15.0 16.3 19.0 
4 21.5 17.2 17.1 18.3 
5 19.5 15.4 15.4 18.9 
6 16. 8 13.6 14.5 17.3 
7 19.3 16. 4 14.9 16. 1 
8 17.5 14.3 13.7 16.7 
9 15.1 13.0 12.9 15.7 











2.12 资格 迹 


在 之 前 的 内 容 中 ,状态 - 值 函 数 或 所 采用 的 Q 表 的 时 间 差 分 学 习 都 看 作 一 
步 预测 。 更 新 方程 如 下 : 

Xpy =X +t OT + YY +1) =y(t)) (2. 48) 
式 中 ， 时 间 差 分 项 mr, +yy(t+1) -y() 仅 取决 于 最 后 时 间 步 的 结果 ， 也 就 是 
说 ， 只 是 更 新 最 后 一 步 的 作用 。 

在 资格 迹 的 情况 下 ， 将 及 时 进一步 回顾 总 结 。 例 如 ， 如 果 当 前 回报 较 好 ， 则 
不 仅 更 新 当前 状态 ， 并 为 导致 到 达 该 状态 的 某 些 先前 状态 分 配 一 些 回报 。 这 将 会 
大 大 提高 算法 的 收敛 时 间 。 已 知 是 根据 折扣 未 来 回报 来 定义 回报 如 下 : 
ae ae AO, (2. 49) 

















Rtg PV OT Harr ey 
则 两 步 预 测 的 形式 为 
Rhus hey Yaa) (2. 50) 
资格 迹 法 会 跟踪 上 次 访问 特定 状态 的 轨迹 ， 然 后 将 当前 回报 分 配给 最 近 访 问 
的 状态 。 而 长 时 间 没 有 被 访问 的 状态 则 没有 资格 获得 当前 回报 。 
定义 时 刻 ;每 个 状态 的 资格 迹 为 e,(s)。 每 个 状态 的 资格 迹 以 ya 速率 衰减 ， 
且 对 于 刚 访问 过 的 状态 ,其 资格 迹 会 增 大 1。 因 此 ,更 新 资格 迹 如 下 : 
yAe,_1(s) WÈ s#s, 


e (s) = 2.51 
is) yre,_,(s) +1 如 果 s =s, ( 
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一 步 预测 误差 为 
6,=r,y1 t+ ¥V,(5,41) -V,(s,) (2.52) 
每 个 状态 的 校正 为 
AV,(s) =06,e,(s) Vs (2.53) 


运行 在 算法 2.6 中 描述 的 TD (A) 学 习 算 法 ， 并 设 y =0.9、a =0.001 和 
和 =0.9。 对 于 整个 网 格 ， 运 行 算法 1000000 步 ， 值 函数 的 估计 如 下 : 
Vi=[8.87 2.49 -0.23 2.5 0.84 -0.49 -0.06 -0.47 -1.29] 


算法 2.6 TD (A) 学 习 

初始 化 V(s) 为 任意 值 ( 随 机 数 ) 
初始 化 * 为 任意 值 

初始 化 el(s) =0 

重复 

根据 策略 7(s) 选 择 行为 a 

执行 行为 a， 观察 回 报 并 转移 到 下 一 状态 s" 
计算 TD 误差 , 6=r+yV(s’) —-V(s) 
计算 e(s) =e(s) +1 

重复 

V(s) =V(s) +a6de(s) 

e(s) =yAe(s) 

直到 所 有 状态 更 新 ， 并 设 s =s 
直到 完成 特定 步 数 或 * 达到 终止 状态 


然而 ， 这 与 采用 算法 2.3 中 介绍 的 传统 TD 学 习 算 法 得 到 的 结果 几乎 相同 。 
采用 资格 迹 的 作用 是 加 快 了 收敛 速度 。 因 此 ， 再 次 执行 仿真 ， 并 观察 V(1 ) 的 收 
敛 情况 。 如 图 2-7 所 示 ， 曲 线 表 明 资 格 迹 法 的 确 使 得 收敛 更 快 。 是 否 值得 通过 和 额 
外 工作 量 和 所 需 计 算 量 来 提高 收敛 速度 ， 这 取决 于 用 户 。 此 外 ， 在 这 个 特定 示例 
中 ， 该 算法 对 参数 和 的 变化 不 敏感 。 

本 章 最 后 介绍 的 算法 是 0(A) 学 习 算 法 。 在 此 ， 对 状态 -行为 的 Q 表 进 行 了 
TD (A) 修正 。 资 格 迹 函数 变 为 e(s,a)。 其 他 部 分 与 之 前 的 算法 大 体 相同 。 同 
样 ， 计 算 预 测 误差 : 

Ô, =r 41 + VQ: (5:41 O41) — O,05:54,) (2. 54) 























而 资格 迹 为 
Àe s s 
aga A AAN (2. 55) 
yAe,_,(s) +1 如 果 s=s， 
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状态 值 估计 
- hy OUT DN OO O 
T T T T T T T 














1 L L 1 1 L 1 
20 25 30 35 40 45 50 
Bt ia] a> x 10000 


图 2-7 对 于 TY(1) ， 有 /无 资格 迹 的 TD 学 习 比 较 


jo} 
oa 
一 | 
Ls 
= 
a 


更 新 0(s,a) 为 
Qjr(s,a) =Q,(s,a) toade(s,a) Vs,a (2. 56) 
具体 算法 如 算法 2. 7 所 述 。 


算法 2.7 O(A) 学 习 

初始 化 0 (s, a) 为 任意 值 ( 随 机 数 ) 
初始 化 * 为 任意 值 

初始 化 e (s, a) =0 

重复 

对 于 每 一 时 间 步 

根据 策略 7(s) 选 择 行为 a 

执行 行为 a， 观 察 回报 + 并 转移 到 下 一 状态 s' 
基于 e RER, ERS s' 中 选择 行为 a 
计算 TD 误差 , 5=r+yQ(s',a') -0(s,a) 
计算 e(s,a) =e(s,a) +1 

重复 

对 于 所 有 状态 8 和 a 

Q(s,a) =Q(s,a) +ade(s,a) 

e(s,a) =yAe(s,a) 

直到 所 有 状态 更 新 ， 并 设 ;=s' 和 a =a! 
直到 完成 特定 步 数 或 * 达到 终止 状态 








WA =0.9, y=0.9, €=0.1, a=0.1, BARR 2.2 中 的 标准 0 学 习 
TAW REA BL, A, SREP MAMIE, 127 Q(1,UP). Q 
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(1,UP) 的 收敛 曲线 如 图 2-8 所 示 。 在 这 一 特定 示例 中 ，0Q 学 习 算法 和 QCA) J 
算法 的 收敛 速率 差别 不 大 。 在 实际 应 用 中 是 否 采 用 较为 复杂 的 0(A ) 学 习 算 法 ， 
准确 的 判断 更 具有 重要 意义 。 
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整个 网 络 的 时 间 步 x1000 
图 2-8 XFO (1，UP) ， 有 /无 资格 迹 的 TD 学 习 比 较 


参考 文献 
[1] R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction. Cambridge, Mas- 
sachusetts: The MIT Press, 1998. 


[2] M. Bowling and M. Veloso, “Multiagent learning using a variable learning rate,” Artificial 
Intelligence, vol. 136, no. 2, pp. 215-250, 2002. 


[3] R. Bellman, Dynamic Programming. Princeton, New Jersey: Princeton University Press, 
1957. 


[4] D. P. Bertsekas, Dynamic Programming: Deterministic and Stochastic Models. Englewood 
Cliffs, New Jersey: Prentice-Hall, 1987. 


[5] R. A. Howard, Dynamic Programming and Markov Processes. Cambridge, Massachusetts: 
MIT Press, 1960. 


[6] C. J. C. H. Watkins and P Dayan, “Q-learning,” Machine Learning, vol. 8, no. 3, pp. 
279-292, 1992. 


[7] T. Jaakkola, M. Jordan, and S. Singh, “On the convergence of stochasticiterative dynamic 
programming algorithms,” Neural Computation, vol. 6, no. 6, pp. 1185-1201, 1994. 


第 3 革 OMA ERE ES oJ 


3.1 ERF 


ASEERE TIE LA BT BE AE BRA SSRs AA fe 
Hpk, ARAL, HSH aes, WGA E ATTA AEE eS 
涉及 的 各 种 游戏 。 实 际 上 ， 几 乎 每 个 孩子 都 玩 过 不 同 版 本 的 这 些 游戏 。 在 此 , E 
点 关注 3 个 不 同 游戏 : 猜 硬 币 、 剪 刀 -石头 - 布 和 内 徒 困 境 。 这 些 都 称 为 矩阵 博 
奔 或 阶段 博弈 游戏 ， 这 是 由 于 在 游戏 过 程 中 都 没有 涉及 状态 转移 。 在 此 ， 不 会 过 
于 深入 研究 博弈 论 本 身 ， 而 是 专注 于 与 这 些 博 弈 游戏 相关 的 学 习 算法 。 基 本 思想 
是 智能 体 在 不 断 重 复 玩 这 些 游 戏 的 过 程 中 ， 学 习 相 应 的 最 优 策略 。 在 某 些 情况 
下 ， 智 能 体 可 能 会 得 到 一 个 纯 策 略 ， 也 就 是 说 ， 智 能 体 在 任何 时 候 都 会 选择 同样 
的 特定 行为 。 而 在 另外 一 些 情 况 下 ， 智 能 体 可 能 是 最 好 以 特定 概率 选择 行为 ， 这 
称 为 混合 策略 。 

在 内 徙 困境 博弈 中 ， 两 名 犯罪 的 内 犯 一 起 被 警察 盘问 ， 每 个 罪犯 都 有 两 种 选 
择 : 一 种 是 与 警察 合作 来 对 付 同伙 ; 另 一 种 是 与 同伙 串通 而 对 警察 撒谎。 如 果 两 
名 罪犯 相互 配合 而 不 承认 犯罪 ， 则 只 会 在 监狱 里 末 几 个 月 的 时 间 。 但 如 果 他 们 中 
的 一 个 为 对 付 同伙 而 与 警察 合作 ， 男 一 个 却 维护 同伙 而 对 警察 撒谎 ， 则 这 个 与 同 
伙 合 作 并 欺骗 警察 的 罪犯 将 会 做 很 长 时 间 的 牢 。 表 3. 1 中 给 出 了 内 徙 困境 博弈 的 
收益 和 矩阵， 该 矩阵 规定 了 玩家 的 奖励 。 和 矩阵 中 的 每 项 表示 相应 行 的 玩家 所 获得 的 
奖励 ， 第 一 行 表 示 与 同 犯 合作 ， 第 二 行 表示 与 警察 合作 而 向 其 坦白 。 如 果 罪 犯 相 
互 配合 并 都 选择 矩阵 的 第 一 行 和 第 一 列 ， 则 可 能 会 在 监狱 中 待 短 短 的 几 个 月 时 
间 ， 从 而 获得 较 好 的 回报 5。 然而 ， 如 果 和 矩阵 中 行 玩 家 (罪犯) NEY 
白 ， 而 矩阵 中 列 玩家 (罪犯) 维护 同伙 而 向 警察 撒谎 ， 则 行 玩 家 将 会 获得 较 大 
回报 10 并 释放 ， 但 列 玩家 则 会 获得 回报 0 并 在 监狱 里 度 过 余生 。 如 果 两 名 罪犯 
都 向 警察 认罪 ， 则 每 人 都 会 获得 较 小 回报 1 并 在 监狱 里 关上 几 年 。 如 果 是 你 ， 这 
种 情况 下 ， 你 会 选择 与 同 犯 合作 而 拒 不 认罪 么 ?如 果 同 犯 向 警察 认罪 而 你 对 警察 
撒 了 谎 ， 那 么 你 将 会 坐 很 长 时 间 的 牢 。 大 多 数理 智 的 人 都 会 选择 向 警察 坦白 交代 
而 尽量 减少 在 监狱 的 时 间 。 选 择 坦白 交代 的 行为 称 为 纳什 均衡 (NE) 。 如 果 一 个 
具有 机 器 学 习 能 力 的 智能 体 不 断 重 复 地 玩 该 游戏 ,那么 会 学 习 到 在 任何 情况 下 都 
100% 地 选择 坦白 。 这 就 是 所 谓 的 纯 策 略 博弈 。 纯 策略 意味 着 在 任何 情况 下 都 选 
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表 3.1 双人 矩阵 博弈 示例 




















猜 硬 币 办 徒 博弈 剪刀 -石头 - 布 
1 5 0 0 d 
m= |, cd r= [i ‘| a i -| 
-1 1 0 
R, = -R, R= (R,)" R, = -R; 
混合 策略 下 纳什 均衡 纯 策 略 下 纳什 均衡 完全 混合 策略 下 纳什 均衡 
择 同样 的 行为 。 














下 一 个 游戏 称 为 猜 硬 币 博弈 。 在 该 游戏 中 两 个 小 孩 各 有 一 枚 硬币 ， 然 后 各 自 
选择 显示 硬币 正面 或 反面 。 如 果 都 同时 显示 两 个 正面 或 反面 ， 则 玩家 1 获胜 并 得 
到 回报 1， 而 玩家 2 输 且 回报 为 -1。 若 两 枚 硬币 正 反 各 不 相同 ， 则 玩家 2 获胜 。 
每 玩 一 局 都 有 一 个 玩家 会 启 而 一 个 玩家 会 输 ， 这 就 是 所 谓 的 零 和 德 阵 博弈 。 对 于 
零 和 博弈 游戏 ， 意 味 着 启 家 的 收益 与 输家 的 损失 相同 。 该 游戏 的 最 优 策略 ， 或 其 
纳什 均衡 ， 是 一 种 以 50% 概率 选择 硬币 正面 同时 50% 概率 选择 硬币 反面 的 混合 
策略 。 如 果 玩 家 2 一 直选 择 正 面 ， 则 玩家 1 很 快 就 会 发 现 玩家 2 的 意图 而 开始 也 
选择 正面 ， 这 时 玩家 1 就 会 一 直 获 胜 。 因 此 ， 如 果 玩 家 2 一 直选 择 正 面 ， 则 认为 
玩家 2 是 一 个 不 理智 的 玩家 。 显 然 ， 每 个 玩家 都 应 该 每 次 以 50% 概率 分 别 选 择 
正面 或 反面 ， 从 而 使 得 其 获得 的 回报 最 大 化 。 这 称 为 混合 策略 博弈 。 而 在 内 徒 困 
境 博弈 中 ， 最 优 策略 是 在 任何 情况 下 都 100% 地 选择 坦白 ， 这 称 为 纯 策 略 。 

下 一 个 有 趣 的 游戏 是 石头 - 剪刀 - 布 游戏 。 大 多 数 孩子 都 熟悉 该 游戏 。 游 戏 
规则 是 每 次 可 以 出 石头 〈 拳 头 ) 、 剪 刀 或 布 的 手势 。 而 布 能 羡 住 ( 赢 ) AA, A 
头 能 击毁 (说) 剪刀 ， 剪 刀 能 割 开 〈( 赢 ) 布 。 如 果 两 个 玩家 出 的 一 样 ， 那 么 就 
是 平局 。 这 个 游戏 是 一 种 混合 策略 的 零 和 博弈 。 显 然 ， 解 决 方案 应 该 是 随机 以 
33% 的 概率 选择 石头 、 剪 刀 或 布 的 手势 。 唯 一 不 同 的 是 该 游戏 可 以 选择 3 种 
行为 。 

更 为 正式 的 表示 ， 和 矩阵 博弈 (RKA) 可 用 一 个 元 组 (n, A, 
n, R, 00, n) 来 描述 ， 其 中 ，n 为 智能 体 个 数 ， a a he a 
散 空 间 ， R; 为 智能 体 i 所 获得 的 回报 函数 。 在 和 矩阵 博弈 中 ， 智 能 体 的 目标 是 寻找 
纯 策 略 或 混合 策略 以 使 得 其 收益 最 大 化 。 P 
混合 策略 则 是 基于 智能 体 所 有 可 能 行为 的 概率 分 布 来 选择 行为 的 策略 。 剪 刀 -A 
头 - 布 游 戏 和 猜 硬币 游戏 中 的 纳什 均衡 都 是 以 相同 概率 执行 动作 的 混合 策略 3] 。 

玩家 i 的 回报 函数 RR 取决 于 所 有 玩家 在 联合 行为 空间 A, x … XA, 中 的 联合 
行为 。 在 矩阵 博 讲 中 ， 每 个 玩家 都 是 试图 基于 玩家 策 咯 使 得 自身 回报 最 大 化 。 生 
阵 博弈 中 的 玩家 策略 实际 上 是 玩家 行为 集 的 概率 分 布 。 为 有 效 评价 玩家 策略 ， 在 
介绍 纳什 均衡 的 相关 概念 : 
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定义 3.1 和 矩阵 博 穿 中 的 纳什 均衡 是 指 满足 下 列 的 所 有 玩家 策略 (rr ， 
T) WEE: 

Vn, TT) VN TT) (3.1) 

Va, e I,,i=1,.,n (3.2) 

WP, V (+) 为 玩家 i 的 值 消 数 ， 即 给 定 玩家 策略 下 玩家 i 的 期 望 回报 ; m, 为 
玩家 i 在 策略 空间 TT, 中 选择 的 任 一 策略 。 

换 句 话说 ,纳什 均衡 是 指 给 定 其 他 玩家 继续 采用 纳什 均衡 策略 而 该 玩家 无 法 
通过 改变 其 自身 策略 获得 更 大 回报 的 所 有 玩家 策略 的 集合 器 。 定 义 给 定 玩 家 联 
BATH ay, e, a, 下 玩家 i 所 获得 的 回报 为 0，(al ，…，a,) ， 玩 家 选择 行为 
a; 的 概率 为 mi (ai) (=1，…，m)。 由 此 , 式 (3.1) 中 定义 的 纳什 均衡 为 

» Qia, yan) mi (ay) +a Ca) omy (an) = 


01, Gn EAX XA, 








Q: (a, oo yy (a) eT (as), (an) ’ 


ajap EAX XA, 
Va, e H,,i =1,-+,n (3.3) 
NF, rë (a;) 为 玩家 i 采用 纳什 均衡 策略 7;” 下 玩家 i 选择 行为 a; 的 概率 。 
有 关 和 矩阵 博 穿 的 定义 如 下 : 
定义 3.2: Hist (3.1) 严格 成 立 ， 则 纳什 均衡 为 严格 纳什 均衡 (5] 。 
定义 3.3: 如 果 行 为 集中 所 有 行为 的 概率 均 大 于 0， 则 玩家 策略 称 为 完全 混 
合 策略 。 
定义 3.4: 如 果 玩 家 选择 某 一 行为 的 概率 为 1， 而 其 他 行为 选择 概率 为 0， 
则 玩家 策略 称 为 纯 策 略 。 
定义 3.5: 给 定 其 他 玩家 行为 下 ， 如 果 每 个 玩家 的 均衡 行为 优 于 其 他 行为 ， 
则 该 纳什 均衡 称 为 纯 策 略 中 的 严格 纳什 均衡 (51 。 


3.2 双人 和 矩阵 博弈 中 的 纳什 均衡 












































对 于 双人 和 气 阵 博弈 ， 可 建立 一 个 由 包含 各 个 联合 行为 对 回报 的 元 素 所 构成 的 
和 矩阵。 由 此 ， 玩 家 i(i=1,2) 的 回报 函数 R, 可 表示 为 一 个 和 矩阵。 

如 果 两 个 玩家 完全 竞争 ， 则 该 双人 和 矩阵 博弈 称 为 零 和 博弈 。 在 这 种 情况 下 ， 
R = -R,。 在 期 望 回 报 上 ， 零 和 博弈 只 有 唯一 的 纳什 均衡 。 这 意味 着 ， 尽 管 在 
零 和 博弈 中 每 个 玩家 可 能 具有 多 种 纳什 均衡 策略 ， 但 在 这 些 纳什 均衡 策略 下 ， 期 
望 回报 值 V; 均 相 同 。 一 般 和 和 矩阵 博弈 是 指 各 种 类 型 的 矩阵 博弈 。 在 一 般 和 和 矩阵 
韦 弈 中 ， 纳 什 均衡 不 再 唯一 ， 可 能 具有 多 个 纳什 均衡 。 

在 双人 和 矩阵 博弈 中 ， 定 义 玩家 i 行为 集 4, (i =1, 2) 的 所 有 概率 分 布 集合 
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为 mi = (Ti (a), =, T; (am ) ) 。 FAK, V; 可 为 
V; =m Rn (3.4) 
RA FE AEE RAER PS SCAR RMT (rr ,， 72 ) , i=l, 
2, RA 














V (Ti m) 2V,(7,,7"°,), Vm; ePD(A,) (3.5) 

式 中 ，-i 是 指 玩家 i 以 外 的 其 他 玩家 ; PD (4) 为 玩家 i 的 行为 集 A, 的 所 有 概 
率 分 布 集合 。 

假定 每 个 玩家 在 游戏 中 只 有 两 种 行为 ， 则 双人 - 双 行 为 的 一 般 和 和 矩阵 博弈 可 


定义 如 下 : 
a, =|" hee] | (3.6) 
Tii 122 C21 ‘C22 
RP, yM cy 分 别 表 示 行 玩家 (玩家 1) 和 列 玩家 (玩家 2) 的 回报 。 
行 玩家 选择 行为 1e 11,2} ， 而 列 玩家 选择 行为 fe 11,2}。 根 据 定义 3.2 和 
式 (3.5) ， 纯 策略 ! 和 j/ 称 为 纯 策 略 中 的 严格 纳什 均衡 ， 若 满足 


mr >T pey > Cif 或 1, fe{1,2)} (3.7) 
WP, -IA -j 分 别 表示 除 行 ! 之 外 的 其 他 行 和 除 列 了 之 外 的 其 他 列 。 


3.3 ”双人 零 和 和 矩阵 博弈 中 的 线性 规划 


在 一 些 机 器 学 习 算法 中 存在 的 问题 之 一 是 求解 纳什 均衡 ， 但 这 谈何容易 。 本 
节 将 介绍 如 何在 竞争 性 零 和 博弈 中 计算 纳什 均衡 。 在 随后 的 一 些 算法 中 ， 一 个 关 
键 步骤 就 是 利用 线性 规划 或 二 次 规划 来 求解 纳什 均衡 。 为 此 ， 需 采用 单纯 形 法 来 
建立 一 个 待 求解 的 约束 最 小 化 /最 大 化 问题 。 单 纯 形 法 在 线性 规划 问题 中 十 分 
常用 。 

求解 双人 零 和 和 抢 阵 博弈 中 的 纳什 均衡 等 价 于 寻找 下 列 方程 的 最 小 解 局 1 : 
min > R77; (a;) (3.8) 

-iaje A; 


TisPD(4;) w_ie 
AP, m (a) ENK i 的 行为 a 的 概率 分 布 ; a _,; 表 示 除 玩家 i 以 外 其 他 玩家 
的 所 有 行为 。 根 据 式 〈3. 8) ， 每 个 玩家 都 试图 在 与 对 手 对 抗 的 最 坏 情况 下 得 到 
最 大 化 回报 。 为 求解 式 (3.8) ， 可 采用 线性 规划 的 方法 。 
假设 给 定 一 个 2 x 2 ASAE AIEEE UP : 
















































































rui Th 
Ri = „Ra = -R, (3.9) 


721 122 


SUP, R 为 玩家 1 的 回报 矩阵 ; R, 为 玩家 2 的 回报 矩阵 。 
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EX pj(j =1,2) 为 玩家 1 第 j 个 行为 的 概率 分 布 ， 而 gq; 为 玩家 2 第 j 个 行为 
的 概率 分 布 。 

由 此 ， 玩 家 1 的 线性 规划 问题 可 表示 为 寻找 (pl! ，ps) 以 使 得 Vi 最 大 化 ， 
且 满 足 


Tupi trap: F V (3. 10) 

ri2pl +r2p >V; (3.11) 

Pi +Pp2 =1 (3. 12) 

p;20,j=1,2 (3. 13) 

玩家 2 的 线性 规划 问题 可 表示 为 寻找 (p1, pr) 使 得 V 最 大 化 ， 且 满足 

-Tuq ~ T1294 2 V2 (3. 14) 

-Taqi -T2242 2 Vy (3. 15) 

qi1 +q =l (3. 16) 

q; 20,j =1,2 (3. 17) 


为 解决 上 述 线 性 规划 问题 ， 可 采用 单纯 形 法 来 寻找 几何 最 优点 。 接 下 来 ， 分 
析 3 个 2 x2 零 和 和 抢 阵 博弈 示例 。 
例 3.1 以 猜 硬 币 游戏 为 例 。 玩 家 1 的 回报 矩阵 如 下 : 
1 -1 
heels J (3.18) 
由 于 ps =1-p,, WSCA 1 的 线性 规划 问题 为 玩家 1: 寻找 pi 使 得 V, 最 大 
化 ， 且 满足 

















2p, -12V, (3. 19) 
-2p +127, (3. 20) 
0<p <1 (3.21) 





采用 单纯 形 法 来 进行 几何 求解 。 图 3-1 hT V Fp 曲线 ， EF, KE 
区 域 满足 约束 条 件 式 (3. 19) ~ 式 (3.21) 。 由 图 3-1 中 曲线 可 见 ，p, =0.5 时 灰 
EKRA V, 的 最 大 值 为 0。 因 此 ，m =0.5 是 玩家 1 的 纳什 均衡 策略 。 同 理 ， 可 
采用 单纯 形 法 来 求解 玩家 2 的 纳什 均衡 策略 。 求 解 式 (3.14) ~ 式 (3.17) 可 
Bl, q =0.5 时 了 态 的 最 大 值 为 0。 因 此 ， 该 游戏 的 纳什 均衡 为 (pl =0.5, q = 
0.5) ， 这 是 一 个 完全 混合 策略 的 纳什 均衡 。 
例 3.2 将 式 (3.18) 中 的 回报 ;从 -1 变 为 2， 并 称 该 示例 为 修正 版 猜 硬 
币 游戏 。 玩 家 1 的 回报 矩阵 如 下 : 
R, -| - | (3. 22) 
玩家 1 的 线性 规划 问题 可 表示 为 玩家 1: 寻找 pi 使 得 Vi 最 大 化 ， 且 满足 
2p, -12V, (3. 23) 
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5 4 -3 -2 -1 0 1 2 3 4 5 
Vi 


图 3-1 猜 硬 币 游戏 中 针对 玩家 | 的 单纯 形 法 。 转 载 自 文献 [8], OX. Lu 


arier (3. 24) 
O<p, <1 (3. 25) 
从 图 3-2 "PHA, p =1 IIR POV, 的 最 大 值 为 1。 同 理 , gq) =1 WY v 
的 最 大 值 为 -1。 因 此 ， 该 游戏 的 纳什 均衡 为 (站 =1, gq, =1) ， 这 是 一 个 纯 策 略 
的 纳什 均衡 。 
例 3.3 接 下 来 考虑 如 下 的 零 和 德 阵 博弈 ; 
T 2 R= -R (3. 26) 
AF, ry eRe 
根据 不 同 的 rE, SERA ISAS (pl ，g1)。 每 个 玩家 的 线性 规划 问题 
可 表示 为 玩家 1: 寻找 pi 使 得 V, 最 大 化 ， 且 满足 





(ma -3)p1 +32), (3. 27) 
3p; -1 >V, (3. 28) 
0<p, <1 (3. 29) 
玩家 2: 寻找 q1 使 得 V 最 大 化 ， 且 满足 
(2-71, )q, -22V5 (3. 30) 


-4q +12V, (3. 31) 
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图 3-2 修正 版 猪 硬币 游戏 中 针对 玩家 1 的 单纯 形 法 。 转 载 自 文献 [8], OX. Lu 


0<q, S1 (3. 32) 
在 此 ， 采 用 单纯 形 法 来 寻找 不 同 mi 时 玩家 的 纳什 均衡 。 当 ry, > 2 时 ， 纳 什 
均衡 是 一 个 纯 策略 (pë = 1, gi = 0)。 当 ri <2 时 ， 纳 什 均衡 是 一 个 完全 混合 
策略 (Pr =4/(6-ru), që =3/(6-m))。 当 mi =2 时 ， 图 3-3 中 给 出 了 相应 值 
函数 的 玩家 策略 。 从 图 3-3 中 可 知 ， 玩 家 1 的 纳什 均衡 策略 为 由 =1， 而 玩家 2 
的 纳什 均衡 策略 为 ms [0, 0.75] 策略 集 。 因 此 , 在 =2 时 ， 可 有 多 个 纳什 
均衡 ， 即 pi =1, q, e[0,0.75], FIFE, ru 的 纳什 均衡 策略 (p, q) 如 图 3-4 
所 示 。 
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图 3-3 例 3.3 中 mi =2 时 的 单纯 形 转载 自 文献 [8], OX. Lu 
a) ry, =2 时 针对 玩家 1 的 单纯 形 b) mi =2 时 针对 玩家 2 的 单纯 形 
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纳什 均衡 策略 
© 
in 








0 1 1 1 1 1 
-10 -8 -6 -4 -2 0 2 4 6 8 10 














图 3-4 ”玩家 的 纳什 均衡 策略 与 4,。 转 载 自 文献 [8], OX. Lu 


3.4 学习 算 法 








本 市 将 介绍 几 种 在 机 融 学 习 领 域 的 常用 算法 。 在 此 ， 着 重 介 绍 在 矩阵 博弈 中 
智能 体 如 何 学 习 选 择 最 优 行为 的 算法 。 同 样 ， 这 些 算法 看 起 来 像 是 梯度 下 降 
(上 升 ) 算法 。 本 闻 将 详细 讨论 这 些 算法 的 各 自 优 缺点 。 尤 其 是 要 重点 介绍 梯度 
EFF (GA) 算法 及 其 相关 的 无 穷 小 梯度 上 升 (GA) FR, REEL (PHC) 
算法 以 及 具有 可 变 学 习 速 率 的 称 为 快速 取胜 或 学 习 的 策略 息 山 ( WoLF - PHC) 
算法 。 然 后 ， 还 将 研究 线性 回报 -无 为 (La) 算法 和 滞后 锚 算 法 。 最 后 ， 讨 
论 线性 回报 -无 为 (L) 算法 和 小 后 锚 算 法 的 优点 。 对 于 上 述 算法 ， 相 关 文 献 
中 提出 了 许多 不 同 版 本 ,但 对 于 在 此 讨论 的 版 本 只 有 极 小 变化 。 当 然 ， 也 可 认为 
所 有 学 习 算法 都 是 对 随机 通 近 法 的 稍 许 改 变 。 














3.5 梯度 上 升 算法 














与 矩阵 博弈 学 习 相 关 的 一 种 基本 算法 是 GA 算法 ， 以 及 与 之 相关 的 IGA 算 
法 。 该 算法 可 用 于 相对 简单 的 双 行 为 /双人 一 般 和 博弈 。 理 论 上 ， 该 算法 无 法 收 
敛 ， 但 通过 引入 趋 于 零 的 可 变 学 习 速 率 ， 即 limon 一 0 ， 表 明 GA 算法 将 会 
WS 
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在 此 ， 考 察 由 Singh 等 人 提出 的 GA SIRO! 。 以 一 个 由 行 玩家 和 列 玩 家 两 个 











回报 矩阵 构成 的 2 x2 和 矩阵 博弈 为 例 ， 和 矩阵 如 下 : 





(3. 33 ) 


(3. 34) 


如 果 行 玩家 选择 行为 1， 且 列 玩家 选择 行为 2， 则 玩家 1 ( 行 玩 家 ) 的 回报 
为 rm ， 玩 家 2 (MGR) 的 回报 为 cs 。 这 是 一 个 双 行 为 /双人 博弈 ， 在 此 ， 假 
设 存在 一 个 混合 策略 ， 当 然 该 算法 也 可 用 于 纯 策 略 博弈 。 在 混合 策略 博弈 中 ， 行 
玩家 选择 行为 1 的 概率 为 Pla, =1} =aw， 因 此 ， 该 玩家 选择 行为 2 的 概率 必须 为 
Pia,=2} =1-aw。 同 理 ， 对 于 玩家 2 ( 列 玩家 ) ， 其 选择 行为 1 的 概率 为 Pla = 
1} =B, 因此 ， 选 择 行为 2 的 概率 必须 为 Plo. =1| =1 -8B。 移 阵 博弈 的 策略 完全 
由 联合 策略 nla b) HE, HF a 和 8p 限制 在 单位 二 次 方 内 。 定 义 每 个 玩家 的 预 
































期 回报 分 别 为 V.(a,B) 和 V.(a,B)， 可 表示 为 
V.(a@,B) =r +a(1 -B)ry + (1 -@) Bro, 
+(1-a)(1 -8)r» 
=u.oB + A(T =r) +B 一 ro) +129 
V.(a,B) =aßc +a(1 -B)ey + (1 -@) Bea, 
+(1 <a) (1 =B) ee, 


=u.oB +Q( Cy — Cy) +B( er — ey) +e% 


y 
ae 


U, =r Tig Ta tra 
Us =Cyy Z C12 一 C21 十 C22 
此 时 可 计算 回报 函数 相对 于 策略 的 梯度 : 
aV.(a,B) 
da 
aV.(a,B) 
op 





= Bu, + (2 — 722) 





=au,, + (c — C99 ) 


则 GA 算法 为 

aV, (Arbi) 
0a, 

OV. (a, ,Bi) 
oP, 


Ak =O, +7 


Prat =P, +0 






































(3. 35) 
(3. 36) 
(3. 37) 
(3. 38) 
(3. 39) 
(3. 40) 


(3.41) 
(3. 42) 


(3. 43) 


(3. 44) 


(3. 45) 


(3. 46) 


定理 3.1 如 果 双 方 都 执行 LGA 算法 ， 即 m0， 则 各 自 策略 将 收敛 于 纳什 


均衡 ,或 整个 过 程 内 的 平均 回报 将 收敛 于 纳什 均衡 期 望 回报 的 极限 值 。 
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首先 研究 GA 算法 ， 以 猜 硬 币 的 混合 策略 为 例 。 要 实现 猜 硬币 游戏 的 GA 学 
习 算法 ， 需 事先 已 知 回报 和 矩阵。 从 图 3-5 可 知 ， 策 略 在 0 ~ 1 振荡 。 如 果 采 用 
IGA 算法 实现 ， 则 难以 选择 一 个 合适 的 趋 于 零 的 步 长 收敛 速率 。 因 此 ，IGA 算法 
在 此 并 不 实用 。 综 上 可 知 ，GA 算法 性 能 不 佳 ， 会 产生 振荡 ， 可 从 理论 上 证 明 该 


结论 31 。 























200 400 600 800 1000 1200 
ARAH 
Al3-5 猜 硬 币 游戏 中 的 GA 算法 





3.6 WoLF -IGA 算法 











WoLF -1GA 算法 是 由 Bowling 和 Velosot 引 提出 的 用 于 双人 / 双 行 为 矩阵 博弈 
的 一 种 算法 。 作 为 一 种 GA 学 习 算 法 ，WoLF - IGA 算法 允许 玩家 根据 当前 梯度 
和 可 变 学 习 速 率 来 更 新 策略 。 玩 家 获胜 时 ， 学 习 速 率 值 较 小 ， 而 玩家 落 败 ， 则 学 
习 速 率 值 较 大 。pi 为 玩家 1 选择 第 一 个 行为 的 概率 。 则 玩家 1 选择 第 二 个 行为 
的 概率 为 1 -po EA, q 为 玩家 2 选择 第 一 个 行为 的 概率 ， 而 1 -gi 为 玩家 
2 选择 第 二 个 行为 的 概率 。WoLF -IGA 算法 的 更 新 规则 如 下 : 

pi (k-+1) =p, E) +m (h) eS) (3. 47) 
oV, (pi(k) ,qi1(k)) 
091 
amin WR V, (pik) 41 ) >Vi(pr qi (4) ) 
ay (k) = 
amas 其 他 


























qi(k+1) =g1(k) +a, (k) (3. 48) 
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(k) = Amin 如 果 V, (pı (k) „qı (k) ) > V (př (k) nN ) 
A T ann 其 他 


式 中 , 7 为 步 长 ; a,(i=1,2) 为 玩家 i(i=1,2) 的 学 习 速 率 ; V (p (k),q(k)) Æ 
指 给 定 当前 两 个 玩家 策略 对 (pi (hk) ,gi (FE)) 下 ， 时 刻 开 时 玩家 ;的 预期 回报 ; 
(Pr ,dr ) 为 玩家 的 均衡 策略 。 

在 双人 / 双 行 为 矩阵 博弈 中 ， 如 果 每 个 玩家 均 采 用 dma > Amin H WoLF - IGA 
算法 ， 则 随 着 步 长 7 一 0 ， 玩 家 策略 收敛 于 纳什 均衡 53] 。 

上 述 算法 是 一 种 在 双人 双 行 为 一 般 和 和 矩阵 博弈 的 完全 混合 策略 或 纯 策 略 中 可 
以 保证 收敛 于 纳什 均衡 的 GA 算法 。 然 而 ， 该 算法 不 是 一 种 分 散 式 学 习 算 法 。 需 
BEC V (pë sqi (k) ) AV, (py Ck) ,gr ) 来 选择 相应 的 学 习 参 数 oj, 和 a。 为 
得 到 Vi(pr oq, (k)) A V (1 (4) ,7 )， 需 要 已 知 时 刻 有 每 个 玩家 的 回报 矩阵 及 
其 对 手 的 策略 。 而 在 一 个 分 散 式 学 习 算 法 中 ， 智 能 体 仅 需 已 知 时 刻 大 的 自身 行为 
和 回报 。 尽 管 文献 [3] 中 提出 了 一 种 称 为 WoLF - PHC 算法 的 实用 分 散 式 学 习 
算法 ,但 并 未 证 明 其 可 收敛 于 纳什 均衡 策略 。 



































3.7 PHC 算法 


PHC (策略 爬山 ) 算法 是 一 种 更 为 实用 的 梯度 下 降 算法 。 该 算法 是 基于 第 2 
章 中 所 介绍 的 0 学 习 算法 。 这 是 一 种 可 用 于 估计 混合 策略 的 合理 性 算法 。 如 果 
其 他 玩家 均 不 学 习 并 采用 固定 策略 ， 则 该 算法 将 收敛 于 最 优 混合 策略 。 
PHC 算法 是 一 种 可 学 习 混 合 策略 的 简单 实用 算法 。 在 混合 策略 空间 中 可 通 
过 PHC 算法 来 实现 息 山 过 程 。 该 算法 最 初 由 Bowling 和 Veloso tmil, PHC 算 
法 无 需 过 多 信息 ， 即 无 需 已 知 智能 体 执行 的 最 近 行 为 以 及 对 手 的 当前 策略 。 智 能 
体 选 择 行为 值 最 大 的 概率 以 一 个 较 小 的 学 习 速 率 6e (0, 1) 增 大 。6=1 时 ， 即 
以 概率 1 成 为 贪 禁 策 略 时 ， 该 算法 相当 于 单 智能 体 的 0 学 习 算法 。 其 他 玩家 采 
用 固定 策略 时 ，PHSC 算法 是 合理 的 并 能 够 收敛 于 最 优 解 。 然 而 ， 如 果 其 他 玩家 
也 进行 学 习 ，PHC 算法 则 可 能 不 会 收敛 到 一 个 固定 策略 131。 
该 算法 的 收敛 性 证 明 与 0 学 习 算 法 一 样 n 中 ， 即 保证 在 一 个 合适 的 探索 策略 
下 使 得 0 值 收敛 于 最 优 值 0* 0 。 然 而 ， 若 两 个 玩家 均 在 学 习 ， 则 算法 不 一 定 会 
收敛 。 该 算法 从 @ 学 习 算 法 开始 ， 表 示 为 
is (0) =(1-o)Q(o) ta(r +y max) Qi Ca’) (3.49) 
mi, (a) = 可 (ao) +A, (3. 50) 
-6, WẸ a # argmax,,Q/(a’) 


A, = 
È ôs 其 他 
a’ Aa 
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式 中 ， 8, =min( mia) ,TH 
具体 算法 步骤 如 下 : 
算法 3.1 智能 体 j 的 PHC 算法 
初始 化 : 
学 习 速 率 ae (0, 1], e (0, 1] 
折扣 因数 ye (0, 1) 


探索 率 e 

j j gt, 
Q (a) +0 Hw (a) EA 
重复 


(a) 根据 具有 一 定 探索 率 s 的 策略 m (a) 选择 行为 a 
(b) 观测 直接 回报 w 

(c) 根据 式 (3.49) 更 新 0i,， (a) 

(d) 根据 式 (3.50) 更 新 策略 m, (a) 




















现在 ,执行 猜 硬币 游戏 的 仿真 实验 。 为 生成 如 图 3-6 所 示 的 仿真 结果 ， 设 学 习 速 
X a =1/(10 +0. 00001¢) 、 探 索 率 a =0.5/(1 +0.00011:)、5 =0.0001。 初 始 化 玩家 1 VE 
择 行为 1 的 概率 为 80% 。 由 图 3-6 可 知 ， 正 如 理论 预期 ,算法 在 纳什 均衡 附近 振荡 。 
在 这 种 情况 下 ， 两 个 玩家 都 在 学 习 。 对 于 任何 实际 应 用 ， 这 都 是 糟糕 的 结果 。 此 外 ， 
该 算法 需要 多 次 迭代 才能 收敛 于 50% 的 平衡 点 。 实 现 该 算法 的 另 一 个 问题 是 所 有 人 参 
数 的 选择 问题 。 对 更 为 复杂 的 博弈 游戏 ， 该 算法 是 不 切实 际 的 。 
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图 3-6 猜 硬 币 游戏 中 玩家 1 选择 行为 1 (正面 ) 概率 的 PHC 算法 
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在 下 一 种 情况 下 ， 设 列 玩家 始终 是 选择 正面 ， 即 行为 1， 而 行 玩 家 从 选择 正 
面 概率 为 20% 、 选 择 反面 概率 为 80% 开始 。 然 后 ， 行 玩家 应 学 习 到 总 是 以 
100% 的 概率 选择 正面 。 如 图 3-7 所 示 ， 玩 家 1 选择 正面 的 概率 逐渐 增 大 并 收敛 
到 概率 100% 。 
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图 3-7 猜 硬币 游戏 中 玩家 2 总 是 选择 正面 时 玩家 1 选择 行为 1 (正面 ) 概率 的 PHC 算法 




















3.8 WoLF -PHC 算法 


文献 [3] 中 提出 了 采用 如 下 可 变 学 习 规则 : 


oV. (œ, bB, 

assi =o tf EY (3. 51) 
o OV. (a, Bx) 

Bos =B +t, TSB) 6.32) 


AF, | 为 可 变 学 习 速率 ， 且 1e [nins lma ] >0。 

调节 学 习 速 率 1 的 方法 称 为 WoLF 法 。 该 方法 的 主要 思想 是 ， 当 玩家 游戏 获 
胜 时 ， 绥 慢 谨慎 地 调节 学 习 速率 ， 而 在 玩家 落 败 或 表现 不 佳 时 ， 则 快速 学 习 。 接 
下 来 就 是 确定 在 游戏 中 智能 体 的 表现 好 坏 。 理 想 情 况 下 ， 智 能 体 选 择 一 个 纳什 均 
衡 ， 并 与 接收 纳什 均衡 后 所 得 到 的 预期 回报 进行 比较 。 如 果实 际 回报 比 大 于 从 纳 
什 均衡 得 到 的 预期 回报 ， 则 智能 体 获胜 ， 并 缓慢 谨慎 地 学 习 。 否 则 ， 可 能 会 落 败 
而 应 快速 学 习 ， 智 能 体 确 实 会 失败 。 

两 位 玩家 各 上 自 独立 选择 一 个 纳什 均衡 ， 并 不 需要 选择 相同 的 平衡 点 。 如 果 博 
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弈 游戏 中 有 多 个 纳什 均衡 点 ， 则 智能 体 可 以 选择 不 同 的 点 ;由 于 每 个 纳什 均衡 点 
都 具有 相同 的 值 ， 所 以 这 是 完全 可 以 接受 的 。 因 此 ， 玩 家 1 可 能 选择 纳什 均衡 点 
Qa* ， 而 玩家 2 选择 纳什 均衡 点 B*， 且 学 习 速率 为 

yr a WMR V, Car Br) >V, Cat Bi) D 

”Us 其 他 给 














k- | min WMR V, (a, Bh) > Ve Ar Be) D 
"Uno 其 他 输 

可 变 学 习 速 率 与 IGA 算法 相 结合 时 ， 称 为 WoLF -IGA 算法 。 尽 管 该 算法 实 
现 起 来 有 一 定 困 难 ， 但 具有 如 下 定理 所 定义 的 良好 理论 性 能 。 

定理 3.2 ”如果 在 双 行 为 迭代 一 般 和 博弈 中 ， 两 个 玩家 都 采用 WoLF - IGA 
算法 (A ,>lis)， 则 所 采取 的 策略 将 会 收敛 到 纳什 均衡 。 

值得 注意 的 是 ， 获 胜 是 定义 为 当前 策略 的 预期 回报 大 于 当前 玩家 纳什 均衡 策 
略 和 其 他 玩家 当前 策略 的 预期 回报 。 

WoLF -IGA 算法 的 难点 在 于 玩家 必须 已 知 大 量 信息 。 需 要 已 知 自身 的 回报 
矩阵、 其 他 玩家 的 策略 以 及 自己 的 纳什 均衡 。 当 然 ， 如 果 玩 家 已 知 自身 的 回报 和 矩 
阵 ， 那 么 也 会 知晓 其 纳什 均衡 点 。 这 就 是 玩家 所 需 获知 的 大 量 信息 ， 因 此 ， 该 算 
法 不 是 一 种 能 够 真正 实现 的 实用 算法 。 

WoLF - PHC 算法 是 PHC 算法 的 扩展 531。 该 算法 采用 快速 取胜 或 学 习 
(WoLF) 机 制 使 得 PHC 算法 可 自身 收敛 于 纳什 均衡 。 算 法 中 具有 两 个 不 同 的 学 
习 速 率 ， 获 胜 时 为 5.， 而 落 败 时 为 8。 平 均 策 略 和 当前 策略 之 间 的 差异 可 作为 
判断 算法 获胜 与 否 的 标准 。 学 习 速 率 6 要 大 于 86。 为 此 ， 玩 家 落 败 时 ， 要 比 获 
胜 时 学 习 速 度 更 快 。 这 使 得 玩家 在 比 预 期 表现 较 差 时 能 够 快速 适应 其 他 玩家 的 策 
略 ， 而 在 比 预期 表现 较 好 时 谨慎 学 习 。 同 时 ， 这 也 让 其 他 玩家 有 足够 的 时 间 来 适 
应 玩家 的 策略 变化 。 由 于 能 够 使 得 玩家 策略 收敛 于 某 个 纳什 均衡 ， 因 此 WoLF - 
PHC 算法 具有 收敛 特性 。 另 外 ， 该 算法 也 是 一 种 合理 性 学 习 算 法 ， 这 是 由 于 在 
对 手 执行 固定 策略 时 ， 算 法 会 使 得 玩家 收敛 到 最 优 策略 。 这 些 特 性 使 得 WoLF - 
PHC 算法 可 广泛 应 用 于 各 种 随机 博弈 中 B.,n- 3 。 学 习 智 能 体 j 的 递归 0 学 习 可 
表示 为 















































1414) =(1-@)Qi(a) ta(r +y maxQi Ca’) ) (3. 53) 
根据 式 (3.32), WoLF - PHC 算法 可 更 新 智能 体 j 的 策略 ， 而 算法 2. 1 描述 
了 针对 学 习 管 能 体 j 的 WoLF - PHC 算法 的 完整 正式 定义 : 
mi (a) =m (a) +A, (3. 54) 
à -ô, WF a*# argmax „Qi (a') 
” 【区 8。 其 他 


a’ Aa 





6, = min (ai (a) Zo) 
j 
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ôo WHY am (a) ala) > D, Tla) Qa Ca’) 





6, 其 他 
i $ i 1 1 j 1 j R r 
maiad Sma yt ATNA Va EA; 
C1 =¢,4+1 


算法 3.2 智能 体 j 的 WoLF - PHC 算法 
初始 化 : 

TE ae (0,1],5, e (0,1], 且 6,>56, 
折扣 因数 ye (0,1) 

探索 率 € 


Qla) 0 Al mi (a) 


C(s)—0 

重复 

(a) 根据 具有 某 一 探索 率 es 的 策略 ri (a) 选 择 行为 a 
(b) 观测 直接 回报 r’ 

(c) 根据 式 (3.53) 更 新 Qj, (a) 

(d) 根据 式 (3.54) 更 新 策略 ri, (a) 





在 此 ， 仿 真实 现 猜 硬币 游戏 的 WoLF - PHC 算法 。 设 学 习 参 数 a =1/(10 + 
0.000012) 、5, =1/(20000 +j). 6, = 25,。 玩 家 1 的 策略 初始 化 为 7, = [0.2 
0.8] ， 玩 家 2 的 策略 设 为 =[0.5 0.5]。 仿真 结果 如 图 3-8 所 示 。 
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图 3-8 猜 便 币 游戏 中 玩家 1 选择 行为 1 的 概率 的 WoLF -PHC 算法 
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3.9 矩阵 博弈 中 的 分 散 式 学 习 


分 散 式 学 习 意 味 着 所 有 智能 体 都 没有 中 心 学 习 策 略 。 即 每 个 智能 体 各 自学 习 
自身 策略 。 玩 家 可 采用 分 散 式 学 习 算 法 在 具有 不 完备 信息 的 博弈 洲 戏 中 学 习 其 纳 
什 均衡 (1425 。 智 能 体 具 有 “不 完备 信息 ”， 意 味 着 智能 体 不 知道 自身 的 回报 函 
数 、 其 他 玩家 的 策略 以 及 其 他 玩家 的 回报 函数 。 而 只 知道 其 自 映 行为 以 及 每 个 时 























玩家 策略 会 收敛 到 纳什 均衡 。 

文献 中 已 提出 可 用 于 双人 和 抑 阵 博弈 的 大 量 多 智能 体 学习 算 法 。Lakshmivarah- 
an 和 Narendrati4] 提 出 了 一 种 线性 回报 -无 为 方法 以 确保 假设 博弈 在 纯 策略 中 只 
有 严格 纳什 均衡 的 情况 下 ， 算 法 可 收敛 到 该 纳什 均衡 。 文 献 [15] 中 提出 的 线 
性 回报 -惩罚 方法 可 保证 在 具有 适当 参数 的 完全 混合 策略 中 玩家 策略 期 望 值 收 敛 
到 纳什 均衡 。Bowling 和 Veloso 提出 了 一 种 WoLF -IGA 算法 以 确保 在 双人 双 行 为 
矩阵 博弈 的 完全 混合 策略 或 纯 策 略 中 收敛 到 一 个 纳什 均衡 。 然 而 ，WoLF - IGA 
算法 不 是 一 种 完全 分 散 式 学 习 算 法 ， 这 是 因为 玩家 必须 已 知 每 一 时 间 步 的 对 手 策 
略 。Dahlll6.21 提 出 了 一 个 滞后 锚 模 型 方法 来 保证 在 完全 混合 策略 中 可 收敛 到 一 
个 纳什 均衡 。 但 由 于 每 个 玩家 都 必须 已 知 各 自 的 回报 和 矩阵， 因此 汝 后 锚 算 法 也 不 
是 一 种 分 散 式 学 习 算法 。 

接 下 来 ， 对 学 习 自动 机 算法 Leil HM Ly pS), GA 算法 WoLF - IGAD! 和 滞后 
锚 算法 49 进行 评价 。 之 后 提出 新 的 Ly 滞后 锚 算 法 。LA_ 1 滞后 销 算法 结合 了 学 习 自 
动机 和 GA 学 习 。 这 是 一 种 完全 分 散 式 算法 ， 因 此 ， 每 个 智能 体 只 需 已 知 每 一 时 间 步 
其 自身 行为 和 回报 。 现 已 证 明 在 双人 双 行 为 一 般 和 算 阵 博 穿 中 ，Ln _1 滞 后 销 算 法 可 收 
敛 于 纳什 均衡 。 此 外 ,在 纯 策 略 或 完全 混合 策略 的 博弈 中 存在 纳什 均衡 。 最 后 ， 对 3 
种 矩阵 博弈 进行 模拟 仿真 以 验证 Le 1 滞后 锚 学 习 算法 的 性 能 。 

首先 回顾 了 在 和 矩阵 博弈 中 基于 学 习 自 动机 和 GA 算法 的 多 智能 体 学 习 算 法 。 
在 3.14 节 中 ,介绍 了 新 的 Lp _i 沸 后 销 算 法 并 证 明了 在 双人 双 行 为 一 般 和 和 矩阵 博 
弈 中 可 收敛 于 纳什 均衡 。 同 时 ， 在 3. 14 节 中 还 通过 3 种 和 抢 阵 博弈 的 仿真 实验 来 
验证 所 提 Le _i 浪 后 销 算法 的 收敛 性 。 









































































































































3.10 学 习 自动 机 











双人 矩阵 博弈 中 的 学 习 可 描述 为 每 个 玩家 根据 从 环境 中 所 得 到 的 回报 来 更 新 
策略 的 过 程 。 每 个 玩家 可 根据 环境 信息 通过 学 习 机 制 来 更 新 其 策略 并 趋向 于 纳什 
均衡 。 为 解决 现 有 多 智能 体 学 习 算法 在 矩阵 博弈 中 的 局 限 性 ， 在 此 将 这 些 学 习 算 
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法 分 为 两 组 : 一 组 是 基于 学 习 自 动机 !8] ; 另 一 组 则 是 基于 GA 学 习 [9] 。 

学 习 自 动机 是 一 个 在 未 知 环境 中 进行 自 适 应 决策 的 学 习 单 元 [8] 。 学 习 自 动 
机 的 目标 是 基于 环境 响应 通过 更 新 其 行为 概率 分 布 来 学 习 最 优 行为 或 策略 。 学 习 
自动 机 方法 是 一 种 完全 分 散 式 学 习 算 法 ， 这 是 因为 每 个 学 习 者 仅 考 虑 其 自身 行为 
和 从 环境 中 获得 的 回报 ， 而 忽略 其 他 智能 体 的 任何 信息 ， 如 其 他 智能 体 所 采取 的 
行为 。 学 习 自 动机 可 由 一 个 四 元 组 (A, r, p, U) 表征 ， 其 中 , A= fa, 
an) 为 玩家 的 行为 集 , re (0, 1] 为 强化 信号 , p 是 行为 的 概率 分 布 ， TUX 
更 新 的 学 习 算法 。 现 有 两 种 基于 学 习 自动 机 的 中 型 学 习 算法 ， 线 性 回 银 - 无 为 
(Lr) 算法 和 线性 回报 -惩罚 (La_p) 算法 。 


3.11 线性 回报 - 无 为 算法 








对 于 玩家 i (i=1, =, n), 线性 回报 -无 为 (Lr _1) 算法 定义 如 下 : 
Pe(E+1) =pe(k) tnr (k) (1 -pe(k)) 如 果 a, 为 时 刻 的 当前 行为 
p(k+1) =pi(k) — nr'(k)pi(k) 对 于 所 有 a Aa 
式 中 , 天 为 时 间 步 ; p 的 上 角 和 下 角 分 别 表 示 不 同 的 玩家 和 玩家 的 不 同行 为 ; 0 < 
7 <1] 为 学 习 人 参数 ; x (k) 是 指 时 刻 k 时 给 定 玩家 i 的 行为 ai 下 的 环境 响应 ; pi 

是 玩家 i 的 行为 ai (c=1, =, m) 的 概率 分 布 。 
在 具有 nn 个 玩家 的 矩阵 博弈 中 ， 如 果 每 个 玩家 均 采 用 Ln _1 算 法 ， 则 该 算法 
可 保证 在 假设 博弈 在 纯 策 略 下 只 有 严格 纳什 均衡 情况 下 收敛 于 纳什 均衡 [14] 。 


3.12 ”线性 回报 -惩罚 算法 


对 于 玩家 i， 线性 回报 -惩罚 (Ls _p) 算法 定义 如 下 : 

pi(k+1) =pi(k) + or CECI pK)] -mL rh) pi CR) 
p(k +1) =pi(k) -mr PE tml -ri [H pis) (aia) 
式 中 ，ai 为 玩家 i 的 当前 行为 ;0 <M <1 为 学 习 参 数 ，m 是 玩家 行为 集中 的 
行为 个 数 。 

在 双人 零 和 年 阵 博 塞 中 ， 若 每 个 玩家 均 采用 La _ 和 法 并 选择 ny <n, MP 


个 玩家 的 混合 策略 下 的 期 望 值 可 任意 逼近 纳什 均衡 105] 。 这 意味 着 LA_p 算 法 可 保 
证 期 望 值 收 敛 到 纳什 均衡 ， 而 不 是 玩家 策略 。 


3.13 滞后 锚 算 法 


(3.55) 





























(3. 56) 





























Dahl!16] 提出 了 双人 零 和 博弈 的 滞后 锚 算法 。 作 为 一 种 GA 学 习 方 法 ， 灌 后 
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铺 算 法 是 根据 梯度 来 更 新 玩家 策略 的 。 玩 家 1 的 策略 记 为 矢量 v= [pi ,ps，,…， 
pm ]7， 表 示 所 有 可 能 行为 的 概率 分 布 。 同 理 ， 玩 家 2 的 策略 记 为 矢量 w = [qi， 
9q gm] 。 更 新 规则 如 下 : 
v(k+1) =0(k) +nP RY(E) + nyok) -v(k)) 
v(k) =0(k) + my(o(k) -vk)) 
w(k+1) =w(k) +NP m, PRX (k) +ny(w(k) -w(k)) 

w(k) =w(k) + ny(w(k) -w(k)) (3. 57) 
RP, n 为 步 长 ，y >0 为 错 定 绘制 因数 ，P,，=7，- (1/m;)1,, 1 是 用 于 保持 矢量 ， 
或 w 中 元 素 之 和 为 1 的 矩阵 ; V(b) 是 对 应 于 玩家 2 行为 的 单位 矢量 。 如 果 时 刻 
选择 玩家 2 行为 集中 的 第 mm 个 行为 ， 则 YC) PRE m, 个 元 素 设 为 1， 而 其 他 元 素 
设 为 零 。 同 理 ，X( 旭 是 对 应 于 玩家 1 行为 的 单位 矢量 ，R, AIR, 分 别 为 玩家 1 和 2 
的 回报 和 矩阵。 在 式 (3.57) H, v 和 ww 分 别 是 ov 和 w 的 锚 参 数 ， 表 示 玩 家 策略 的 加 
权 平 均 。 在 一 个 只 有 完全 混合 策略 纳什 均衡 的 双人 零 和 博弈 中 ， 如 果 每 个 玩家 均 采 
用 光 后 锚 算法 ， 则 随 着 步 长 为 70 ， 玩 家 策略 会 收敛 于 纳什 均衡 [7] 。 

该 算法 可 保证 在 完全 混合 策略 中 收敛 于 纳什 均衡 ， 然 而 并 未 讨论 在 纯 策略 中 
可 收敛 于 纳什 均衡 。 此 外 ， 式 (3.57) 中 的 滞后 锚 算 法 需要 已 知 玩家 回报 矩阵 
R 和 R, 的 所 有 信息 。 因 此 ,滞后 锚 算法 不 是 一 种 分 散 式 学 习 算法 。 
表 3. 2 中 根据 每 个 玩家 的 允许 行为 个 数 、 纯 策略 或 完全 混合 策略 的 收敛 性 以 

及 分 散 性 程度 对 这 些 算 法 进行 了 比较 。 由 表 3.2 可 知 ， 只 有 WoLF - IGA 算法 可 
保证 在 纯 策略 和 混合 策略 下 能 够 收敛 于 纳什 均衡 ， 但 这 并 不 是 一 种 分 散 式 学 习 算 
法 。 虽 然 Ln EAM Ly _? 算 法 是 分 散 式 学 习 算法 ， 但 都 不 能 保证 在 纯 策略 和 混 
合 策略 下 收敛 于 纳什 均衡 。 而 3. 14 节 提 出 的 La ;滞后 锚 算法 可 以 保证 在 纯 策 略 
和 混合 策略 下 收敛 于 纳什 均衡 ， 见 表 3. 2。 

表 3.2 和 矩阵 博弈 中 的 学 习 算法 比较 


















































现 有 算法 所 提 算 法 
适用 性 Lee LR_P WoLF -ICA 滞后 锚 Lp -if JE fii 
人 允许 行为 无 限制 双 行 为 双 行 为 无 限制 双 行 为 
收敛 性 纯 fe 两 者 完全 混合 两 者 
纳什 均衡 (期 望 值 ) 纳什 均衡 
分 散 式 是 是 F F 是 

















本 节 设计 了 一 种 Ly ;滞后 锚 算 法 ， 这 是 一 种 完全 分 散 式 学 习 算法 ， 且 可 以 
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保证 在 纯 策略 和 完全 混合 策略 中 收敛 于 纳什 均衡 。 在 此 ,采用 式 (3. 55) HE 
义 的 Lr _1 算 法 来 作为 玩家 策略 的 更 新 定律 ， 并 在 式 (3.57) 中 增加 滞后 锚 项 。 
由 此 ， 玩 家 i 的 Ln _1 灌 后 错 算法 定义 如 下 : 
pi(k +1) =pi(k) +nr'(k) [1 -pi(k) ] + n[pi(k) -piCk) | an ai 是 在 
pi(k +1) =pi(k) +n[pi(k) -pi(k)] aes 
| 
pi(k+1) =pj(k) +nlpiCk) -py(k)] 
式 中 , 了 为 步 长 (pi, p) 是 (ph, ph) 的 滞后 参数 。 
Le ;滞后 锚 算 法 的 基本 思想 是 同时 考虑 玩家 当前 策略 以 及 先前 策略 的 长 期 
平均 。 在 此 ， 期 望 在 学 习 过 程 中 玩家 的 当前 策略 和 长 期 平均 逐步 趋 于 平衡 点 。 
为 分 析 上 述 Le ,滞后 锚 算法 ， 在 此 采用 常 微 分 方程 (ODE)。 随 着 步 长 趋 近 
于 零 ， 学 习 算 法 的 性 能 可 通过 ODE 近似 。Thathachar 和 Sastry!!! Heist (3.55) 
中 Le ,算法 的 等 效 常 微分 方程 为 


如 果 ai zai (3.58) 


-一 (3. 59) 

et, di 为 给 定 玩家 选择 行为 a 且 其 他 玩家 执行 各 自 当前 策略 下 的 预期 回报 。 

结合 式 (3.59) 中 Ls _ 算法 的 ODE AIA Hi a HRB AY ODE， 可 得 
Ln _1 沸 后 销 算法 的 等 效 ODE: 








Mi 


= Dpipi(di - di) + (pi - pi) 
j=l 


pi =pi -pi (3. 60) 

基于 所 提出 的 Li_1 洁 后 锚 算 法 ， 可 得 以 下 定理 : 

定理 3.3 考虑 一 个 双人 - TAIRA, FAR RA ESC RIA 
策略 下 存在 纳什 均衡 或 在 纯 策略 下 存在 严格 纳什 均衡 。 如 果 两 个 玩家 均 采 用 
LR_ 1 滞后 锚 算 法 ， 则 当 步 长 nO 时 ， 在 算法 的 渐进 特性 方面 ， 下 列 成 立 : 

© 所 有 纳什 均衡 都 是 渐 近 稳定 的 ; 

上 

WEAR: 给 定式 (3.6) 中 定义 的 双人 - 双 行 为 一 般 和 博弈 ， 设 pp, 为 玩家 1 采 
取 其 第 一 ee 个 行为 的 概率 。 则 Lg- HA 
销 算法 为 


























2 
pi = Dpip(dl - d!) + (pi - pi) 
j=1 


Pi = Pi -pi (3.61) 


AE 
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2 — 
qı = > nag - d?) + (4, -%) 
j=l 


qı = 4 -4q 
AF, di =ruqi tral -q); d} =119, +1 (l -qi); di =cupi +e (1 -pi1); 
d = Cp, +Cy(1 -pi1)o 
HHE, It (3.61) 变 为 
pi1=pi(1 -pi) [ug +r -ra ] + (pi -Pi) (3. 62 ) 
万 =p1 -Pı 
qı =q (1 -q ) lupi +e) — er] + (q1 -gq) 
qı =q; -qı 
式 中 , u =ru -r-ra +a; U =C -C12 -C21 Hy 0 
如 果 设 上 述 方程 的 右 侧 等 于 零 ， 可 得 上 述 方程 的 平衡 点 为 (六 ,qr ) =(0, 
0),(0,1),(1,0),C1,1),((c -cl)[ (Ty —T12) /U1)o 为 研究 上 述 学 习 动 态 
的 稳定 性 ， 采 用 上 述 方程 在 平衡 点 (př, që, pë, që) 的 线性 近似 。 则 线性 
化 和 矩阵 J H 





(L-27 )(uqgr +m -rm)-1 1 pi (l -př uy 0 
1 -1 0 0 
Jot at) = * * * * 
qi (1 -gr )w 0 (1-2g7 )(wpr tey -ey)-1 1 
0 0 1 -1 
(3.63) 
BRET PEM (0, 0), (0, 1), (1, 0), (1, 1) 代入 式 (3.63) 可 得 
-e,-l 1 0 0 
a) oe : (3. 64) 
pure 0 0 -e,-l 1 
0 0 1 -1 
el=rm -rae=cz-cl XIF (0,0) (3. 65) 
el =Pl-nmiez=col-c 对 于 (0,1) (3. 66) 
e1=r21 =T, =C =c 对 于 (1,0) (3. 67) 
e =ru -re =e -cm 对 于 (1,1) (3. 68) 


上 述 矩 阵 ,的 特征 值 为 Al ,=0.5[ -Ce +2) + Jef +4] MAG, =0.5 
[ -(e +2) + Ve +4]。 为 获得 稳定 平衡 点 ，, 的 特征 值 实 部 必须 为 负 。 
此 ， 如 果 满 足下 式 ， 则 平衡 点 是 渐 近 稳定 的 : 
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0.5[ - (e12 +2) + fe? +4] <0>e; 2 +2> Jela +45e,. >0 (3.69) 
XE PP BLK (Ce. -c21 )/u2, (T2 12) Zu), BEEP EEE 


-1 1 pi (1 -př )u 0 
1 -1 0 0 
iixed = 二 7 (3. 70) 
qr (l-qř)u 0 -1 1 
0 0 1 -1 
ERIE RERED TEN 
A* +4A3 + (4 +e3) A? +2e,A +e, =0 (3.71) 


AF, 63 = -př (1 -př dar (1 -gr ) Uz Up o 
构建 Routh 表 来 分 析 式 (3.71) 中 的 根 位 置 ; 





A 1 4 +e, ez 

A? 4 2e3 (3. 72) 
2 4 +0. 5e, ez 

人 1 (e3 +4e3) / (4+0.5e3 ) 

AP e3 

















根据 Routh - Hurwitz 稳定 性 判 据 ， 寿 式 (3.71) 稳定 ， 则 该 方程 的 所 有 系 
数 必 须 为 正 ， 且 式 (3.72) 的 Routh 表 的 第 一 列 中 所 有 元 素 为 正 。 为 满足 
Routh - Hurwitz 稳定 性 判 据 ， 必 须 有 es > 0。 因 此 ， 如 果 满 足下 式 ， 则 平衡 点 
( (en = Cy) ) /us , (722 —712) /ul ) 是 渐 近 稳定 的 : 

e3= -pi (1-py Jay (1 -qř )uu >0=u u <0 (3.73) 

案例 3.1 纯 策 略 中 的 严格 纳什 均衡 ”首先 认为 在 纯 策 略 中 只 有 严格 纳什 均衡 。 不 
失 一 般 性 ， 假 设 本 例 中 纳什 均衡 是 玩家 均 和 采取 第 一 个 行为 。 根 据 不 等 式 (3.7) 中 严 
格 纳什 均衡 的 定义 ， 如 果 纳 什 均衡 策略 是 玩家 均 采 取 第 一 行为 ， 则 可 得 

TH >T ,C11 > C12 (3.74) 

由 于 本 例 中 纳什 均衡 是 平衡 点 (1，1)， 则 根据 式 (3.68) Ast (3.74) 可 
得 ej =ru -ra >0、es =c -cp >0。 因 此 ,满足 稳定 性 条 件 式 〈3. 69) ， 且 本 例 
中 的 纳什 均衡 平衡 点 (1，1) 渐 近 稳定 。 

接 下 来 ， 验 证 其 他 平衡 点 。 首 先 考 虑 平衡 点 ( (cn = c21 )/u2 , (ra — Ty) /U1 )o 
根据 稳定 性 条 件 式 (3. 73 ) ， 如 果 该 平衡 点 稳定 ， 必 须 有 uu <0。 为 保证 是 概 
率 空间 (单位 二 次 方 ) 中 的 有 效 内 点 ,平衡 点 ( (cy -c )/u , (ra — Typ) 7 ) D 
须 满足 : 
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penal <1 (3.75) 
0 < (19-1) /u, <1 
Ai uju, <0， 则 可 得 

Ty, >To , 727 >T 

[e 21 ,722 > T12 WME u, >0,u, <0 (3.76) 

C11 < Cl2 ,C2 < C21 

Ty, >721 ,72? >T 

> 21 ,722 > T12 如 果 w <O,uy >0 (3.77) 

Cii <C12 ，C22 < C21 


ski, 式 (3.76) 和 式 (3.77) 中 的 条 件 与 式 (3.74) 中 的 不 等 式 冲突 。 因 此 ， 
在 案例 3. 1 P, PERR wju, <0 AR, WE BE (Cen - c )/w, Cra -rp)7/ 
ui ) 不 稳定 。 

对 于 平衡 点 (0, 1) 和 (1, 0), 根据 式 (3.66)、 式 (3.67) 和 式 (3.69) 可 
知 ,平衡 点 (0, 1) 的 稳定 性 条 件 是 7 >ras c > cp， 而 平衡 点 (1, 0) 的 稳定 性 

RAPE ry >ra, Cy >cn。 然 而 ,这 些 稳 定性 条 件 与 式 (3.74) 中 的 不 等 式 r >ra 
cu >cp 冲 突 。 因 此 ， 在 案例 3.1 中 ,平衡 点 (0, 1) 和 (1, 0) 不 稳定 。 

对 于 平衡 点 (0, 0) ， 根 据 式 (3.65) 和 式 (3.69) 中 的 条 件 可 知 ， 稳 定性 
FIFE r» >71，、cyy >ci 。 由 式 (3.7) 可 知 ， 该 稳定 性 条 件 也 满足 式 (3.7) 中 
严格 纳什 均衡 ( 两 个 玩家 均 采 取 第 二 个 行为 ) 的 要 求 。 因 此 , 平衡 点 (0, 0) 
在 只 有 当 其 也 是 纳什 均衡 点 时 才 稳 定 。 

综 上 ， 纳 什 均衡 点 渐 近 稳定 ， 而 不 是 纳什 均衡 的 其 余 平衡 点 均 不 稳定 。 

案例 3.2 完全 混合 策略 中 的 纳什 均衡 ”考虑 在 完全 混合 策略 中 只 有 纳什 均衡 
的 情况 。Singh 等 人 I” 表明 ， 一 个 双人 - 双 行 为 一 般 和 和 矩阵 博 穿 中 完全 混合 策略 
下 的 纳什 均衡 具有 如 下 形式 : 


or aie | (3.78) 


Uy u 
式 中 ，(pi ,qi ) 表 示 玩 家 采取 第 一 行为 的 纳什 均衡 策略 ， 这 恰好 是 式 (3. 62) 
的 平衡 点 。 
根据 式 (3.73) WATE, Buju, <0， 则 平衡 点 ( (6 -09)fiw, (ry -ry)/ 
ui ) 渐 近 稳 定 。 若 假设 ujus >0， 则 可 得 
| < (cn = C9) )/u <1 


0< (r3 =r )/u <1 




















Ti >721 ,722 > 712 
| WR u, >0,u, >0 (3.79) 
C11 > C12, Cn > C21 
Tii <T21 722 <Ti2 
| WER u, <0,u, <0 (3. 80) 
Cii < Cl2 ,C2 < Cy 
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根据 式 (3.7)， 上 述 方程 包含 纯 策 略 中 的 多 个 纳什 均衡 : Au, > 0、w > 
0, WCpi",qi") =(1,1), (0,0), Au <0, w <0, WW (pi), gi") = (0,1), (1, 
0) 。 然 而 在 假设 条 件 下 ， 案 例 3. 2 的 博弈 中 只 有 完全 混合 策略 下 的 一 个 纳什 均 
衡 ， 而 纯 策略 下 的 纳什 均衡 不 存在 。 因 此 ， 在 案例 3.2 中 总 是 具有 wu, <0， 且 
作为 纳什 均衡 点 的 平衡 点 ( (cy = ca )/u , Cra -ri2)Au) 渐 近 稳 定 。 

对 于 其 他 平衡 点 ,根据 式 (3.65) ~ 式 (3.69) 的 条 件 ， 稳定 性 条 件 变 为 














rp > 12 4€22 >C, 对 于 (0,0) (3. 81) 
ra >riisc21 >c2 对 于 (0,1) (3. 82) 
ra >rw,c12 >c 对 于 (1,0) (3. 83) 
ri >micil>c2 对 于 (1,1) (3. 84) 





正如 上 述 所 提 到 的 ， 案 例 3. 2 中 的 博弈 在 完全 混合 策略 下 只 有 一 个 纳什 均 
衡 ， 且 总 是 有 zz <0。 由 此 ， 案 例 3. 2 中 的 式 (3.76) MIÈ (3.77) 成 立 。 然 
而 ， 对 于 平衡 点 (0, 0) 、(0，1) 、(1,，0) 、(1，1) ， 稳 定性 条 件 式 (3. 81) ~ 
xk (3.84) 与 式 (3.76) MIÈ (3.77) 冲突 。 因 此， 在 案例 3.2 中 ， 除 ((c， - 
ca )/Uy , (Ta -ry )Aui) 之 外 的 平衡 点 均 不 稳定 。 

综 上 可 知 ， 在 案例 3.2 中 ， 纳 什 均衡 点 渐 近 稳定 ， 而 其 他 平衡 点 均 不 稳定 。 


3.14.1 仿真 


在 此 ， 对 3 种 矩阵 博弈 进行 仿真 来 表明 Ln ;滞后 销 算 法 的 性 能 。 第 一 种 博弈 
游戏 是 猜 硬币 游戏 。 该 游戏 是 一 个 双人 有 零 和 博弈 ， 每 个 玩家 有 两 种 行为 : 正面 或 
反面 。 如 果 两 个 玩家 选择 相同 行为 ， 则 玩家 1 获得 回报 1 而 玩家 2 获得 回报 -1。 
如 果 选 择 不 同行 为 ， 则 玩家 1 获得 回报 -1 而 玩家 2 获得 回报 1。 根 据 表 3.1 
(a) 中 的 回报 矩阵 和 例 3. 1 中 的 解 ， 该 游戏 的 纳什 均衡 是 在 完全 混合 策略 中 ， 
即 每 个 玩家 以 0. 5 的 概率 选择 正面 和 反面 。 设 式 (3. 58) 中 的 步 长 为 了 = 0.001 
All p,(0) = q,(0) = 0.2. 仿真 迭代 运行 30000 次 。 如 图 3-9 所 示 ， 从 玩家 以 
(0.2, 0.2) 概率 选择 第 一 个 行为 开始 ， 在 学 习 过 程 中 不 断 趋 近 于 纳什 均衡 点 
(0.5, 0.5), 

第 二 个 仿真 的 博弈 游戏 是 称 为 囚徒 困境 的 双人 一 般 和 博弈 。 在 该 游戏 中 ， 有 
两 个 玩家 且 每 个 玩家 有 两 个 行为 : 坦白 或 合作 。 如 果 一 个 玩家 坦白 而 另 一 玩家 合 
作 ， 则 该 玩家 可 获得 回报 10， 如 果 该 玩家 合作 而 另 一 玩家 坦白 ， 则 获得 回报 0。 
如 果 两 个 玩家 均 合 作 ， 则 每 个 玩家 获得 回报 5。 如 果 均 坦白 ， 则 每 个 玩家 获得 回 
报 1。 回 报 和 矩阵 见 表 3.3 (b)， 其 中 一 个 玩家 的 回报 矩阵 是 男 一 玩家 回报 矩阵 的 
转 置 。 在 玩家 均 采 取 坦 白 行为 的 纯 策 略 中 只 有 唯一 的 纳什 均衡 。 设 式 (3. 58) 
中 的 步 长 7 = 0.001, pi (0) =q, (0) = 0.5。 仿 真 迭 代 运 行 30000 K. WE 
3-10 所 示 ， 在 学 习 过 程 中 ， 玩 家 的 策略 逐步 趋 近 于 纳什 均衡 策略 ( 两 个 玩家 均 
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q (玩家 2 选择 正面 的 概率 ) 
© 
A 











(P,(0),9,(0)) 








0.2 03 04 05 06 0.7 
Pi (玩家 1 选择 正面 的 概率 ) 


0.8 0.9 1 


图 3-9 猜 硬 币 游戏 学 习 过 程 中 的 玩家 策略 轨迹 。 转 载 自 文献 [8], OX. Lu 


采取 第 二 个 行为 ) 。 


表 3.3 双人 矩阵 博弈 示例 

















(a) 猿人 硬币 (b) KIERA (c) 剪刀 -石头 - 布 
0 -1 1 
1 =1 5 0 
ml a er nr e 
-1 1 10 1 
-1 1 0 
R, = -R; R, = (RD) R, = -R; 
完全 混合 策略 下 的 纳什 均衡 纯 策 略 下 的 纳什 均衡 完全 混合 策略 下 的 纳什 均衡 











本 章 中 ， 第 三 个 仿真 的 博弈 是 石头 - 剪刀 - 布 游戏 。 该 游戏 有 两 个 玩家 且 每 
个 玩家 有 3 种 行为 : 石头 、 布 和 剪刀 。 由 以 下 规则 确定 游戏 赢家 : 布 击败 石头 ， 
剪刀 击败 布 ， 石 头 击败 剪刀 。 获 胜 者 获得 回报 1， 落 败 者 获得 回报 - 1。 如 果 两 个 
玩家 选择 相同 行为 ， 则 每 个 玩家 获得 回报 0。 回报 和 矩阵 见 表 3. 3 (e) 。 该 游戏 具 
有 一 个 完全 混合 策略 下 的 纳什 均衡 ， 即 每 个 玩家 以 相同 概率 1/3 选择 任 一 行为 。 
REK n= 0.001, p,(0) =gqi1(0) = 0.6 以 及 p,(0) =g,(0) =0.2。 仿 真 迭 代 运 
行 50000 次 。 尽 管 仅 证 明了 双人 双 行 为 博弈 的 收敛 性 , 但 图 3-11 中 的 结果 表明 ， 
所 提 Ly ;滞后 锚 算 法 可 适用 于 两 个 行为 以 上 的 双人 和 抢 阵 博弈 。 
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qi( 玩 家 2 选择 合作 的 概率 ) 








o 01 02 03 04 05 06 07 08 09 1 
pi( 玩 家 1 选择 合作 的 概率 ) 
图 3-10 ”办 徒 困 境 游戏 学 习 过 程 中 的 玩家 策略 轨迹 。 转 载 自 文献 [8], OX. Lu 
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Pi( 玩 家 1 选择 石头 的 概率 ) 
图 3-11 剪刀 -石头 - 布 游戏 学 习 过 程 中 的 玩家 策略 轨迹 。 转 载 自 文献 [8], OX. Lu 
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第 4 章 AIMERA 


4.1 简介 


在 一 个 多 智能 体系 统 中 ， 智 能 体 可 在 一 定 程度 上 根据 预先 设计 的 行为 进行 预 
i 程 。 通 常 需要 智能 体能 够 在 线 学 习 ， 以 提高 多 智能 体系 统 的 性 能 。 然 而 一 般 而 
言 ， 多 智能 体系 统 非常 复杂 ， 且 由 于 实际 原因 不 可 能 对 系统 进行 预 编 程 。 此 外 ， 
智能 体 和 环境 的 动态 性 会 随 着 时 间 而 变化 ， 因 此 需要 学 习 和 适应 。 

在 关于 随机 博弈 的 多 智能 体 强化 学 习 (MARL) 的 早期 研究 过 程 中 中 ， 人 
们 认识 到 智能 体 的 行为 是 与 环境 相关 的 。 在 Littman!" 的 开创 性 论文 中 ， 仅 着 重 
研究 具有 相反 和 对 立 目 标的 两 个 智能 体 。 这 意味 着 ， 可 采用 使 得 其 中 一 个 智能 体 
回报 最 大 化 而 另 一 个 智能 体 回报 最 小 化 的 单一 回报 函数 。 智 能 体 必须 与 其 竞争 的 
智能 体 合 作 并 在 最 坏 情况 下 使 得 所 获得 的 回报 最 大 化 。 同 时 还 认识 到 由 于 智能 体 
或 玩家 无 法 确定 其 对 手 所 采取 的 行为 而 需要 混合 策略 。LittmanL1l 提出 了 极 大 极 
小 @ 学 习 算法 。 在 第 3 章 的 3.2 节 中 已 介绍 了 极 大 极 小 Q 学 习 算 法 的 基本 思想 。 

在 一 个 合理 性 多 智能 体 博弈 中 ， 每 个 智能 体 必 须 以 某 种 形式 跟踪 其 他 学 习 智 
能 体 的 行为 。 学 习 智 能 体 可 能 会 遇 到 的 博弈 和 情境 类 型 包括 完全 竞争 性 的 零 和 博 
弈 。 另 外 ， 也 包括 智能 体 相 互 合 作 以 获得 最 大 回报 的 一 般 和 合作 博弈 。 例 如 ,在 
办 徒 困境 问题 中 ， 如 果 是 合作 博弈 ， 则 每 个 玩家 都 应 向 警察 撒谎 ， 相 互 配合 以 使 
得 在 监狱 的 时 间 最 少 。 然 而 ， 如 果 是 一 个 竞争 力 性 博弈 ， 则 应 尽 可 能 避免 一 个 向 
警察 撒谎 而 对 手 坦白 的 最 坏 情况 ， 并 使 得 向 警察 撤 谎 的 玩家 终身 监禁 。 然 而 ， 智 
能 体 必 须 沟通 来 相互 合作 。 

通常 ， 在 一 个 多 智能 体系 统 中 ， 智 能 体 必须 跟踪 其 他 智能 体 的 行为 从 而 得 到 
一 致 的 行为 。 此 外 ， 还 需 考 虑 可 扩展 性 问题 。 智 能 体 必须 能 够 跟踪 大 量 的 可 能 状 
态 和 联合 行为 。 

随机 博弈 中 的 学 习 可 表示 为 MARL 问题 ?1 。 智 能 体 在 当前 状态 下 同时 选择 
行为 ， 并 在 下 一 状态 获得 回报 。 与 随机 博弈 中 求解 纳什 均衡 的 算法 不 同 ， 强 化 学 
习 算 法 的 目标 是 通过 与 环境 交互 来 学 习 均 衡 策略 。 一 般 来 说 ， 在 MARL 问题 中 ， 
智能 体 不 会 从 环境 中 获知 转移 函数 或 回报 函数 。 实 际 上 ， 智 能 体 需 要 通过 选择 行 
为 并 观测 所 得 到 的 回报 和 下 一 状态 ， 来 获得 转移 函数 或 回报 函数 信息 。 

合理 性 和 收敛 性 是 随机 博弈 中 多 智能 体 学 习 算法 的 两 个 理想 特性 。 当 认 
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为 一 个 玩家 具有 合理 性 时 ， 这 意味 着 如 果 其 他 玩家 的 策略 收敛 于 固定 策略 ， 则 学 
习 算 法 将 会 收敛 于 对 于 其 他 玩家 策略 是 一 个 最 佳 响应 的 策略 。 这 是 什么 意思 ? 假 
设 正在 与 一 个 总 是 选择 正面 的 糟糕 玩家 玩 猜 硬币 游戏 。 无 论 选 择 正面 还 是 反面 ， 
都 会 获胜 。 起 初 ， 认 为 对 手 是 一 个 合理 性 玩家 ， 即 对 手 在 每 局 中 采用 以 各 自 
50% 概率 选择 正面 和 反面 的 合理 性 策略 。 因 此 ， 也 开始 采用 正面 和 反面 各 占 
50% 的 策略 。 但 经 过 几 轮 之 后 ， 意 识 到 对 手 采 用 固定 策略 而 似乎 总 是 选择 正面 。 
这 时 就 马上 改变 ， 也 开始 一 直选 择 正 面 。 由 此 ， 就 会 一 直 获 有 性， 所 采用 的 就 是 合 
理性 策略 ， 而 对 手 却 不 是 一 个 合理 性 策略 。 

在 随机 学 习 算法 中 ， 也 有 收敛 的 概念 。 假 设 所 有 其 他 玩家 都 采用 一 个 固定 策 
略 。 不 会 以 任何 方式 学 习 或 改变 其 策略 。 这 时 就 会 适应 这 种 行为 ， 并 收敛 于 某 个 
合理 策略 。 或 者 ， 假 设 游戏 中 的 所 有 玩家 都 根据 相同 的 算法 进行 调节 。 那 么 所 有 
玩家 都 会 收敛 到 最 优 策略 或 纳什 均衡 吗 ? 如 果 所 有 玩家 都 采用 合理 性 学 习 算 法 且 
策略 收敛 ， 那 么 必然 会 收敛 到 一 个 平衡 点 。 每 个 玩家 都 会 针对 所 有 其 他 玩家 做 出 
最 佳 响应 。 

在 本 章 中 将 回顾 随机 博弈 中 现 有 的 一 些 强化 学 习 算 法 ， 并 分 析 这 些 算 法 的 适 
用 性 、 合 理性 以 及 收敛 性 。 

Isaacs 3! 提出 了 一 种 疆土 防御 的 微分 填 弈 ， 即 防御 者 在 人 侵 者 到达 领 土 之 前 
进行 拦截 。 本 章 介 绍 了 一 种 称 为 疆土 防御 网 格 游 戏 的 网 格 版 Isaacs 博弈 ， 这 是 一 
种 在 网 格 世 界 中 防御 者 对 抗 人 侵 者 的 双人 零 和 随机 博弈 。 然 后 ， 研 究 玩家 如 何 利 
用 MARL 算法 来 学 习 玩 游戏 。 在 此 ， 采 用 两 种 强化 学 习 算法 ,并 在 收敛 性 和 合 
理性 方面 验证 这 些 学 习 算 法 的 性 能 。 


4.2 多 人 随机 博弈 
















































































马尔 科 夫 决策 过 程 包 含 一 个 玩家 和 多 个 状态 ， 而 矩阵 博弈 包含 多 个 玩家 和 一 
个 状态 。 对 于 具有 多 个 玩家 和 多 个 状态 的 博弈 ， 定 义 了 一 种 马尔 科 夫 决策 过 程 和 
和 矩阵 博弈 相 结 合 的 随机 博弈 〈 或 马尔 科 夫 博弈 ) 。 随 机 博弈 可 表示 为 一 个 元 组 
(n, S, A, «=, A,, T, y, Ri, 0, R,), HP, n 为 玩家 个 数 ，T: SxA x 
=- xA, x S> [0, 1] 为 转移 函数 ，4;( =1，…,， n) HNX i WTAE, ye 
[0, 1] 为 折扣 因数 ，R,: SxA x… xA, x SSR 是 玩家 i 的 回报 函数 。 随 机 博弈 
中 的 转移 函数 是 指 给 定 玩家 当前 状态 和 联合 行为 时 下 一 状态 的 概率 分 布 。 回 报 函 
BER, (s, al ,，…, a,,s') 表 示 玩 家 i 在 状态 ;采取 联合 行为 (al ，…，a,) 之 后 在 
状态 s 所 得 到 的 回报 。 与 马尔 科 夫 决策 过 程 类 似 ， 随 机 博弈 也 具有 马尔 科 夫 特 
性 。 即 玩家 的 下 一 状态 和 回报 仅 取决 于 当前 状态 和 所 有 玩家 的 当前 行为 。 

对 于 多 人 随机 博弈 ， 如 果 已 知 博弈 中 的 回报 函数 和 转移 函数 ， 则 希望 找到 纳 
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什 均 衡 。 随 机 博弈 中 的 纳什 均衡 可 描述 为 n 个 策略 元 组 Car, oe, m), IHF 
MIA seS Hi=l, =, n, WE: 
Vis, mE ym; sy, ) S Vl, mE yom ) 对 于 所 有 7 e TT, 
(4.1) 
RP, M, HNA i 的 策略 集 ; VCs, ry, 7 ) 是 给 定 当前 状态 和 所 有 玩家 均 
衡 策 略 下 玩家 i 折扣 回报 的 预期 总 和 。 
为 简化 表示 ， 在 此 用 Vi (;s) 来 表示 纳什 均衡 策略 下 的 状态 - 值 函数 VCs, 
Ty ，,… ,7 )。 同 样 可 定义 行为 - 值 函 数 0Q*(s, al ,…, a,) 为 给 定 当前 状态 和 所 
有 玩家 当前 联合 行为 下 玩家 i 折扣 回报 的 预期 总 和 ， 随 后 采用 纳什 均衡 策略 。 由 
此 可 得 
Vi (s) = >, QF (8,4,,777,4,) Ty (s8,0,)---7, (8,0,) (4.2) 


ay 0G, EA] x XA, 


Or (s, a, tyan) = > Ts, aj, 58) [RC 8,01 5°°°,¢,55') +yV; (s)"] (4.3) 
S ES 


UH, m? (s,a;) e PD(4;) 是 玩家 i 采用 纳什 均衡 策略 下 行为 a; 的 概率 分 布 ; T 
(s, a), t, a,,8') =Pr{s,,, =s =sa do 是 给 定 当 前 状态 * 和 联合 行为 
(a, e, an) 时 下 一 状态 为 y 的 概率 ; R; (s, a, 0, ap, S) 是 给 定 当 前 状态 
s 和 联合 行为 (al ，…，a,) 下 在 状态 *' 得 到 的 期 望 直接 回报 。 

根据 式 (4.2) 和 式 (4.3), 式 (4.1) 中 的 纳什 均衡 可 重 写 为 


OF (s,a, 5140, TE (sa) emi (s a; ) mi (s,a,) 之 
aj, ,an EAlX.…xA, 


QF (8,4, 5°°°,@,) 7, (8,4, ) Ti(s,a;) TT (s, a) (4.4) 


ay ya, EAX A, 

PEDLEX A] AR He SUAS AY [FR ew BEAT IE, WAR TA SAR ABA AIA BY PTF 
PRE, WU PR ATES PVE PRE BM AL BATES, WARE AY TT FR PR ee 5 73 — ot 
家 的 相反 ， 则 称 为 双人 完全 竞争 博弈 或 零 和 博 穿 。 对 于 具有 所 有 类 型 回报 函数 的 
RAE ， 称 为 一 般 和 随机 博弈 。 

为 求解 随机 博弈 ， 需 找到 一 个 策略 m: S 一 4A;， 使 得 具有 折扣 因数 y 的 玩家 
i 的 未 来 折扣 回报 最 大 化 。 与 矩阵 博弈 中 的 策略 类 似 ， 随 机 博弈 中 的 玩家 策略 也 
具有 概率 性 。 例 如 由 Litmman[1 提 出 的 足球 博弈 ， 其 中 进攻 方 的 智能 体 必须 采用 
概率 策略 来 过 掉 一 个 未 知 防守 者 。 在 文献 1, 4] 中 ， 随 机 博弈 的 解 可 描述 为 
一 组 关联 特定 状态 矩阵 博弈 中 的 纳什 均衡 策略 。 特 定 状 态 矩 阵 博弈 也 称 为 阶段 博 
弈 。 在 这 些 特定 状态 矩阵 博弈 中 ， 定 义 行 为 - 值 函 数 O" Cs, a, e an) AWA 
玩家 在 状态 * 采取 联合 行为 a, +, a, 并 之 后 采用 纳什 均衡 策略 时 玩家 i 的 预期 
回报 。 如 果 所 有 状态 的 07(s, oa，…，an) 值 已 知 ， 则 可 通过 求解 关联 特定 状态 
和 矩阵 博弈 得 到 玩家 ;的 纳什 均衡 策略 :4 。 因 此 ， 对 于 每 个 状态 *， 都 有 一 个 矩阵 
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GF, ALT CE eS RE PETE PP BS PY a, FI, LE Sy ae 
略 就 是 每 个 特定 状态 矩阵 博弈 中 纳什 均衡 策略 的 集合 。 在 此 介绍 一 个 例子 。 

例 4.1 定义 一 个 两 个 玩家 分 别 记 为 P1 和 P2 的 2 x2 网 格 游戏 。 玩 家 1 的 
初始 位 置 在 左下 角 ， 玩 家 2 的 初始 位 置 在 右上 角 ， 如 图 4-1a 所 示 。 两 个 玩家 都 
试图 在 最 少 步 数 内 到 达标 为 “C” 的 两 个 目标 之 一 。 从 各 自 初 始 位 置 开 始 ， 每 个 
玩家 都 有 两 种 可 能 的 移动 方向 ， 即 玩家 1 向 上 或 向 右 移动 ， 玩 家 2 向 左 或 向 下 移 
动 。 图 4-1b 给 出 了 游戏 中 编号 的 单元 格 。 每 个 玩家 每 次 采取 一 个 行为 并 移动 到 
一 个 单元 格 。 当 任 一 玩家 到 达 目 标点 并 获得 回报 10 时 游戏 结束 。 图 4- 1a 中 上 部 
单元 格 和 下 部 单元 格 之 间 的 虚线 是 玩家 可 以 0.5 概率 通过 的 障碍 。 如 果 两 个 玩家 
移动 到 同一 单元 格 ， 则 两 个 玩家 返回 到 各 自 初始 位 置 。 图 4- le 给 出 了 在 游戏 中 
可 能 存在 的 转移 。 可 能 存在 的 状态 (玩家 的 节点 位 置 ) 个 数 为 7， 其 中 包含 玩家 
的 初始 位 置 S = (2, 3) 和 6 个 终止 状态 (s,,，…, 87) 。 






































图 4-1 随机 博弈 示例 转载 自 文献 [5], © X. Lu 
a) 两 个 玩家 的 2 x2 网 格 游戏 b) 游戏 中 编号 的 单元 格 
c) 给 定 玩家 联合 行为 (a, ，a, ) 下 可 能 存在 的 状态 转移 
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根据 对 游戏 的 上 述 描述 ， 可 在 该 示例 中 找到 纳什 均衡 策略 。 玩 家 需 避 开 障 碍 ， 
并 在 不 跨越 障碍 情况 下 移动 到 其 旁边 的 目标 点 。 因 此 ， 纳 什 均衡 是 玩家 的 联合 行为 
(ai = 右 , ou = 左 ) RIEN (4.2) 和 式 (4.3) ， 纳 什 均衡 策略 下 的 状态 - 值 函数 
Vv; (si ) 为 





Vi (s1) = R;(si, 右 , 左 ， s7) + YVi (s7) (4.5) 
=10+0.9-0=10 
RP, y=0.9; R(s,, A, A, s) =10;V"" (s1) =0 (终止 状态 下 的 状态 - 值 函 
数 始 终 为 零 ) 。 
另外 ， 还 可 得 到 行为 - 值 函 数 07 (si, a, ww)。 例 如 ， 玩 家 1 的 行为 - 值 函 
数 0r (s,, 上, 下) 可 表示 为 
QFf (ss E, = > T, E, F, DIR (s, E, F, s) + VP (s')] (4.6) 


=0.25(0 +0. 9V” (s,)) +0.25(0 +0. 9Vč (s,)) 
+0.25(10 +0. 9V;" (s3) ) +0. 25(10 +0. 9V;* (s4) ) 
=0.25 -0.9 +10 +0.25 - 0 +0.25 + 10 +0. 25 - 10 
=7.25 


表 4. 1 给 出 了 玩家 在 纳什 均衡 策略 下 的 行为 - 值 涵 数 。 
表 4.1 例 4.1 中 的 行为 - 值 函 数 07 (si ,ai ,a,) 




















ay ay 
Or (5,4 ,Ga2 ) 左 F Qx (5, a ,Ga2 ) 左 TF 
a 上 4.5 7.25 ay, E 9.5 T25 
Ai 10 9.5 A 10 4.5 
































4.3 RA) O 学 习 算法 











Littman!!! 提出 了 一 种 专用 于 双人 零 和 随机 博弈 的 极 大 极 小 0 学 习 算法 。 极 
大 极 小 Q 学 习 算 法 采用 极 大 极 小 原理 来 求解 玩家 的 纳什 均衡 策略 以 及 双人 和 零 和 
随机 博弈 的 状态 值 。 与 0 学 习 算 法 类 似 ， 极 大 极 小 0 学 习 算 法 是 一 种 对 状态 值 
或 状态 -行为 值 执行 反 向 传播 的 时 间 差 分 学 习 方法 。 极 大 极 小 0 学 习 算 法 表述 
如 下 : 
在 双人 零 和 随机 博弈 中 ， 给 定 当 前 状态 *， 定 义 玩家 i RE -EKRA 
TY (s) = min > Q; (s,a;,a_;)7;(s,a;) 1=12 (4.7) 
Ts,*) aE -ia;€ A; 
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式 中 ，-i 表 示 玩 家 i 的 对 手 ; ri(s, ORRERA s 下 玩家 i 的 所 有 可 能 策略 ; 
Q*(s,a1,a_;) 为 玩家 i 及 其 对 手 分 别 选择 行为 a, e A; 和 a_,e4_; 且 之 后 采用 纳 
什 均衡 策略 时 的 预期 回报 。 

如 果 已 知 0”(s, a, a_;)， 就 可 求解 式 (4.7) 并 得 到 玩家 i 的 纳什 均衡 策 
略 7* (*)。 类 似 于 求解 式 (3.8) 的 极 大 极 小 解 ， 可 利用 线性 规划 来 求解 式 
(4.7). TE MARL 问题 中 ， 对 游戏 玩家 而 言 ，0” (s, a), ai) RA, 

极 大 极 小 0 学 习 算法 如 算法 4. 1 所 示 。 如 果 无 限 频 繁 访问 所 有 可 能 状态 和 
玩家 可 能 行为 ， 则 极 大 极 小 0 学 习 算 法 可 保证 收敛 于 纳什 均衡 。 极 大 极 小 0 学 
习 算 法 的 收敛 性 证 明 可 详 见 文献 16] 。 该 算法 的 一 个 主要 缺点 是 在 算法 4.1 的 
每 次 迭代 中 必须 采用 线性 规划 来 求解 7,(s) 和 VV,(s)。 

算法 4.1 RAH o 学 习 算 法 

1. 初始 化 0;(s, aj, ai) Vi(s) 和 7 

2. KFA IEE 

3. 玩家 i 根据 探索 -开发 策略 从 当前 状态 s 采取 行为 a， 

4. 在 随后 的 状态 * 中， 玩家 ; 观测 获得 的 回报 ~ 以 及 对 手 在 前 一 状态 * 所 采取 
的 行为 

5. 更 新 Q;(s, a;, a_;): 

Qi(s, a;, a_;) — (1-a@)Q;(s, a;, a_;) t+alr;, +V;(s') ] (4.8) 

RPF, a 为 学 习 速 率 ; y 为 折扣 因数 

6. 利用 线性 规划 求解 式 (4.7) 并 得 到 更 新 后 的 7,(s) 和 V,(s) 

7. 结 

这 将 导致 学 习 过 程 非常 缓慢 。 此 外 ， 为 执行 线性 规划 ， 玩 家 i 必须 已 知 对 手 
的 行为 空间 。 

采用 极 大 极 小 0 学 习 算法 时 ， 玩 家 将 在 对 手 造成 的 最 坏 情 况 下 总 是 采取 
“安全 ”策略 。 然 而 ， 如 果 对 手 采用 的 是 一 个 非 均 衡 策 略 的 固定 策略 ， 则 极 大 极 
小 0 学 习 算 法 无 法 使 得 玩家 调整 其 策略 以 适应 对 手 策略 的 变化 。 其 原因 是 极 大 
极 小 0 学 习 算 法 是 一 个 与 对 手 无 关 的 算法 ， 无 论 对 手 采用 什么 策略 ， 都 会 收敛 
到 玩家 的 纳什 均衡 策略 。 如 果 玩 家 的 对 手 是 一 个 没有 采用 均衡 策略 的 较 弱 对 手 ， 
那么 玩家 的 最 优 策略 就 不 是 纳什 均衡 策略 。 在 这 种 情况 下 ， 玩 家 的 最 优 策 略 会 比 
纳什 均衡 策略 更 好 。 

综 上 所 述 ， 适 用 于 零 和 随机 博弈 的 极 大 极 小 0 学 习 算 法 不 能 满足 合理 性 要 
求 ， 但 会 满足 收敛 性 。 下 面 的 2 x2 网 格 博弈 示例 对 该 算法 进行 了 演示 。 
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4.3.1 2x2 HREF 


2 x2 网 格 博弈 的 场地 如 图 4-2 所 示 ， 所 要 守卫 的 领土 位 于 右 下 角 。 最 初 ， 
入 侵 者 从 左上 角 开 始 ， 而 防御 者 从 领土 的 单元 格 开始 。 为 更 好 地 说 明 疆土 防御 问 
题 ， 将 每 个 玩家 的 可 能 行为 个 数 简化 为 2。 入 侵 者 只 能 向 下 或 右 移 动 ， 而 防御 者 
只 能 向 上 或 向 左 移动 。 当 防御 者 和 和信 侵 者 均 移 动 到 不 包括 领土 单元 格 的 同一 单元 
格 时 ， 则 抓 捕 到 入 侵 者 。 当 入 侵 者 到 达 领 十 或 防御 者 在 入 侵 者 到 达 领 十 之 前 将 其 
抓 捕 时 ， 游 戏 结束 。 假 设 两 个 玩家 均 从 初始 状态 s, 开始 ， 如 图 4-2a 所 示 。 在 博 
KRPA 3 个 非 终止 状态 (51, s2, 55), WE 4-2 所 示 。 如 果 入 侵 者 移动 到 右 
侧 单元 格 而 防御 者 向 左 移动 ， 则 双方 玩家 均 到 达 图 4-2b PRE szo WEAS 
者 向 下 移动 而 防御 者 同时 向 上 移动 ， 则 均 到 达 图 4-2c 中 的 状态 sso ERE s 和 
3， 如 果 入 侵 者 足够 聪明 ， 无 论 防御 者 采取 什么 行为 都 可 到 达 领 土 。 因 此 ， 该 博 
弈 游戏 只 需 -一 步 ， 这 是 因为 如 果 入 侵 者 到 达 状 态 s 或 s， 就 实际 上 已 经 获胜 。 
为 此 ， 从 初始 状态 s, 开始 ， 一 个 聪明 的 防御 者 会 试图 通过 猜测 入侵 者 的 行动 广 
向 来 进行 拦截。 

在 此 ， 定 义 玩家 的 回报 函数 。 防 御 者 的 回报 函数 定义 为 
“fdistm， 防御 者 拦截 人 侵 者 







































































Ry (4.9) 
-10, 入 侵 者 到 达 领 土 
其 中 
dist = | x1 (4) — xr|+ lyi Cte) - yr | 


















































到 4-2 2x2 网 格 博弈 游戏 转载 自 文献 [5], © X. Lu 
a) 玩家 的 初始 位 置 : WAS s, b) 入 侵 者 位 于 右上 角 而 防御 者 位 于 左下 角 : RE s 
c) 入 侵 者 位 于 左下 角 而 防御 者 位 于 右上 角 : IRA s 












































入 侵 者 的 回报 函数 为 
fis - dist), 防御 者 拦截 入 侵 者 (4. 10) 
10, 人 侵 者 到 达 领 土 
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回报 函数 式 (4.9) 和 式 (4.10) 也 可 用 于 6 x6 网 格 博弈 。 

在 仿真 之 前 ， 可 简单 求解 该 游戏 ， 类 似 于 求解 例 4.1。 在 状态 sy Ms, 一 个 
聪明 的 入 侵 者 总 是 会 到 达 领 土 而 不 被 拦截 。 防 御 者 在 状态 55 和 ss 的 值 分 别 为 Vb 
(sy)= -10 和 WV,(s3) = -10。 设 折扣 因数 为 0.9， 可 得 OF Csi, dren, Oigh ) = 
YVo (s2) = -9、 Op (si, up» Odown) =YVp (53) = -9、 QP (S1, aleti Sdown) = 1 和 
QB (51, Guys Orig) =1， 见 表 4.2 和 表 4. 3a。 在 纳什 均衡 条 件 下 ， 定 义 防 御 者 向 
上 和 向 左 移动 的 概率 分 别 为 zi Csi, aap) All 7h Csi, aet) o ARE H FMA 
SABA ay Csi, Op) AM my (s1, ot) 。 根 据 表 4.3a 中 的 @ 值 ， 通 过 求 
解 表 4.3b 中 的 线性 规划 问题 可 得 到 防御 者 在 状态 s 的 值 。 求 解 线性 规划 问题 的 
方法 可 见 3.2 节 。 

定义 RR(s, a, 0) 为 对 手 采 取 行 为 oe 0 时 ,智能 体 在 状态 se S 下 采取 行为 
ae4 的 直接 回报 。 具 体 思想 是 在 最 坏 的 可 能 情况 下 智能 体 获得 最 大 的 回报 。 也 
就 是 说 ， 智 能 体 认为 在 纯 竞 争 博弈 中 其 他 智能 体 采 用 其 最 优 的 可 行 策略 。 因 此 ， 
智能 体 的 最 优 策 略 是 使 得 最 小 可 能 的 回报 最 大 化 。 正 如 在 办 徒 困境 情况 下 ， 最 佳 
行为 应 是 坦白 ， 这 是 因为 不 管 男 一 玩家 采用 什么 行为 ， 这 都 会 使 得 可 能 出 现 最 坏 
情况 的 成 本 最 小 。 如 果 内 犯 / 玩 家 决定 不 坦白 ， 且 另 一 玩家 坦白 ， 则 内 犯 / 玩 家 就 
会 长 期 入 狱 。 因 此 ， 为 使 得 最 坏 情况 的 成 本 最 小 ， 办 犯 /玩家 应 选择 坦白 。 

现在 设想 不 管 另 一 玩家 (在 本 例 中 是 对 手 ) 采取 什么 行为 ， 都 对 一 个 保证 
预期 回报 为 R 的 策略 满意 。 在 本 例 中 ,状态 s, 下 防御 者 的 回报 矩阵 为 


















































R,(s,) = ry cal (4.11) 
注意 ， 本 例 中 的 策略 是 智能 体 在 状 表 4.2 防御 者 在 状态 si 的 极 小 极 大 解 
Ss 选择 向 上 移动 的 概率 mls, aup) 防御 者 
以 及 选择 向 左 移动 的 概率 rn (si， Qi 上 左 
Vs 入 侵 者 | 下 -9 1 
由 此 ， 不 管 对 手 采取 什么 行为 ， 可 f 1 -9 











得 如 下 预期 回报 方程 : 
(9 Ty (Si Ay) + (1) + mp (51 aen) = R 
(1) + mp(s1 saup) +(-9) + TCs saet) =R 
Ty (sy sdap) +TD(s aet) = 1 
因此 ， 不 管 对 手 如 何 选择 ， 目 标 是 使 得 预期 回报 R 最 大 化 。 
求解 表 4. 3b 中 的 线性 约束 之 后 ， 得 到 防御 者 在 状态 sı WEN Vols) = -4 
以 及 防御 者 的 纳什 均衡 策略 为 rp Csi, aup) =0.5 和 rp (s1, den) =0.5。 对 于 双 
人 零 和 博弈 ， 可 得 Oor = -QF 。 类 似 于 表 4.3 中 的 方法 ， 可 得 在 该 博弈 游戏 中 和 人 



































64 多 智能 体 机 器 学 习 : 强化 学 习 方法 





侵 者 的 极 小 极 大 值 Vi(s1) =4, më (si, adown) =0.5 以 及 af (s1, Grign ) =0.5, 
因此 ， 入 侵 者 的 纳什 均衡 策略 是 以 概率 0.5 向 下 或 向 右 移动 ， 防 御 者 的 纳什 均衡 
策略 是 以 概率 0. 5 向 上 或 向 左 移动 。 

极 大 极 小 0 学 习 算法 的 实现 过 程 首 先是 对 每 个 智能 体 初始 化 0 矩阵 、 值 函 
数 VCs) 和 策略 m; Ca), ERAP, WR OC, a;, a;i) =0 M VCs) =0。 任意 
初始 化 防御 者 移动 的 概率 为 rj(up) =1.0 和 ji(left) =0.0， 入 侵 者 移动 的 概率 
为 Ti(right) =1.0 和 7;(down) =0.0。 设 折扣 因数 为 y =0.9， 学 习 速 率 为 a= 
0. 1 PRAM © =0. 1。 对 于 防御 者 ,线性 规划 问题 的 约束 条 件 是 

表 4.3 ”防御 者 在 状态 si 的 极 小 极 大 解 (a) 防御 者 在 状态 s, HO 值 ; 
(b) 防御 者 在 状态 si 的 线性 约束 
































(a) (b) 
防御 者 目标 :最 大 化 尺 
QF 上 左 (-9) molsisaw) +(1) © mp(sisaren) =R 
入 侵 者 下 -9 1 (1) .mp(s >a) +(-9) np(si,an) =R 
A 1 -9 Ty (51 4p) +TpCSi Gen) =1 
Ry(s, E, 右 )7(s1, 上 ) +Rp(s, 左 , 右 )7(s1, 左 ) 宇 Vp (si1) (4. 12) 


Rp(s, È; 下 )7(s1, 上 ) +Rp(s, 左 , 右 )7(s1, 左 ) 宇 Vp(si) 


TD (51， 上 ) +7 (51， 左 ) =1 
同 理 ， 对 于 入 侵 者 : 
Ri(s, A, E)ay(s,,47) + Ris, F, E) a (51, F) VCs) 
R (s, A, Æ)m (s1, A) +R,(s, F, Æ)m (s1, F) =V,(s,) (4.13) 
ms, fi) +m(s, F) =1 
对 入 侵 者 和 防御 者 分 别 独 立 运行 线性 规划 算法 。 该 算法 (如 单纯 形 法 ) 可 
确定 每 次 送 代 中 mols, E), mols, 左 ) 和 内 (s ) 的 值 。 智 能 体 未 知 先 验 回报 。 
回报 的 最 佳 估计 是 状态 -行为 函数 0(s,a) 。 因 此 ， 极 大 极 小 0 学 习 算 法 同时 更 
新 预期 回报 和 策略 7(s, a)。 为 便于 采用 MATLAB 来 计算 线性 规划 解 ， 需 将 上 述 
方程 转化 为 正确 形式 。 线 性 规划 问题 的 MATLAB 结构 为 
minf x (4. 14) 





Avx Sb 不 等 式 约束 
Aga “二 Deg 等 式 约束 


lb < x Sub 低 于 或 高 于 x 的 边界 
值得 注意 的 是 ，MATLAB 一 般 是 将 该 问题 设 定 为 最 小 化 问题 。 通 过 乘 以 -1 
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可 将 极 大 极 小 算法 中 的 回报 最 大 化 问题 转换 为 最 小 化 问题 。 将 智能 体 回报 的 最 佳 
估计 Rass a;, a_;) MIR, (si, ais a_;) 蔡 换 为 Qp (51, ai, a_;) 和 Qi (si, ais 
a_i) ， 并 针对 防御 者 和 入 侵 者 重新 描述 最 小 化 问题 。 对 于 防御 者 ， 最 小 化 问 
题 为 





.AT 
minf 4X4 
Xq 


AF, fp =[0,0, -1]; x1 =[7rp(s1, E), Tp(s1, 左 ), 由 (Cs )]， 且 服从 约束 
- Qolsi, E, A)ap(s,, E) - Qp(s,, Æ, 右 )Tp(s1, 左 ) +Vp(s,) S0 
= Qp(s1, E, Pap (sys E) = Qp(s1, Æ, Taps, Æ) + Vps) S0 
Tp(si, E) +Tp(s1, Æ) =1 
TU FEB 4 变 为 


Pee - Qp(si, 左 , 右 ) | 
- Qp(si, E, F) - Qp(s1,Æ, F) 1 
PME bÆ b = [0 0]"。 等 价 条 件 (即行 为 概率 之 和 为 1) 为 
Aeq = [mp(s1, E) 7p(sl, 左 )] 
Hb, =1。 
为 了 完整 起 见 ， 也 给 出 入 侵 者 的 矩阵 方程 为 
minji x 
AR, fi =[0, 0, -1]; a =[ mi(si, 右 )， Ti(S1, F), Vi(s,) ] ， 且 服 从 约束 : 
- Q(s,,47,£) 7) (5,47) - Qi(s1, F, E)a(s, F) +V) <0 
- Qis, HÆ) Ths, A) - Q(s,, F, ÆC, F) VCs) <0 
Ti(s1, A) +m (s, F) =1 
则 矩阵 4 变 为 
A= a È, 右 ) - Q1(s1, 左 ， 右 ) | 
-Ql E, F) -Ql Æ, F) 1 
WERE b 变 为 b= [0 0] 7 。 等 价 条 件 〈 即 行为 概率 之 和 为 1) 为 
A es = [7i(si, 右 ) Ts, 下 )] 











首先 将 极 大 极 小 0 学 习 算 法 应 用 于 博弈 游戏 。 为 更 好 地 检验 极 大 极 小 0 学 
习 算 法 的 性 能 ， 在 此 采用 与 文献 [1] 相同 的 参数 设置 。 并 采用 e 贪 禁 策略 作为 
探索 -开发 策略 。s 贪 梦 策略 定义 为 玩家 以 概率 e 从 行为 集中 随机 选择 一 个 行 
为 ， 并 以 概率 1 -e 选择 一 个 贪 梦 行 为 。 在 此 ， 贪 禁 参 数 e 设 为 0. 2。 选 择 学 习 
速率 a 使 得 其 值 在 经 过 1000000 次 和 迭代 后 将 衰减 到 0.01。 折 扣 因 数 y 设 为 0.9。 
迭代 次 数 表示 算法 4. 1 中 步骤 2 的 重复 次 数 。 学 习 结 束 后 ， 绘 制 玩家 的 学 习 策 略 
如 图 4-3 所 示 。 
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图 4-3 防御 者 /入 侵 者 博弈 游戏 的 极 大 极 小 0 学 习 


4.4 纳什 和 学 习 算法 


文献 [7] 中 首先 提出 纳什 0 学 习 算法 ， 是 将 极 大 极 小 0 学 习 算 法 [0 从 零 
和 随机 博弈 扩展 到 一 般 和 随机 博弈 。 在 纳什 0 学 习 算 法 中 ， 需 计算 每 个 状态 下 
的 纳什 Q 值 ， 以 更 新 行为 - 值 函 数 并 得 到 均衡 策略 。 尽 管 纳什 0 学 习 是 应 用 于 
一 般 和 随机 博弈 ， 但 收敛 于 纳什 均衡 的 条 件 并 不 包括 相应 的 一 般 类 环境 [9 。 相 
应 的 环境 类 别 实际 上 仅 限 于 只 学 习 到 协调 均衡 或 对 抗 均 衡 的 博弈 情况 [801 ay 
什 @ 学 习 算 法 如 算法 4. 2 所 示 。 

算法 4.2 纳什 学习 算 法 

i SHE Oils, ths were, 0, Mme A, FS hy ome 

2. 对 于 每 次 迭代 

3. 根据 探索 -开发 策略 ， 玩 家 1; 从 当前 状态 s 采取 行为 a 

4. 在 下 一 状态 s， 玩 家 i 观测 所 有 玩家 ri ，… ,7 所 得 到 的 回报 ， 以 及 在 先 
前 状态 s 所 有 玩家 采取 的 行为 

5. 更 新 Qi(s, a1, 0, an): 
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Q;(s,a,,°77,a,) — (1 -a)0,(s,a1 ,7 ,a,) talr; +y 纳什 0,(s')] (4.15) 
HH, a 为 学 习 速 率 ; y 为 折扣 因数 

6. 采用 二 次 规划 来 更 新 纳什 0,(s) 和 7,(s) 

7. 结 














为 保证 在 一 般 和 随机 博 询 中 能 够 收敛 于 纳什 均衡 ， 纳 什 0 学 习 算法 需要 在 
学 习 过 程 中 满足 下 列 条 件 : 每 个 阶段 博弈 〈 或 特定 状态 矩阵 博弈 ) 在 所 有 时 间 
步 和 所 有 状态 具有 全 局 最 优点 或 鞍点 。 由 于 上 述 严格 条 件 是 根据 在 学 习 过 程 
中 意识 到 的 阶段 博弈 来 定义 的 ， 因 此 不 能 在 学 习 的 实际 博弈 中 评估 避 ] 。 类 似 于 
极 大 极 小 0 学 习 算法 ， 纳 什 0 学 习 算法 需要 在 每 个 迭代 中 找到 适当 的 搜索 算法 
(如 Lemke - Howson 算法 ) 以 获得 纳什 @ 值 ， 和 否则 会 导致 学 习 过 程 缓慢 。 

纳什 0 学 习 算 法 将 0 学 习 算 法 扩展 到 非 合作 多 智能 体 领域 。 学 习 智 能 体 保 
持 联 合 行为 上 的 @ 函数 并 通过 假设 存在 纳什 均衡 来 进行 更 新 。 在 给 定 某 些 约束 
条 件 下 ， 可 证 明 该 算法 对 于 阶段 博弈 具有 收银 性 。Hu 和 Wellmant 引 表明 智能 体 
采用 纳什 Q 学习 算 法 比 单 智能 体 0 学 习 算 法 更 可 能 达到 联合 最 优 路 径 。 尽 管 0 
学 习 算 法 的 单 智 能 体 特性 不 会 转移 到 多 智能 体 情况 下 ， 但 在 应 用 方面 更 加 方便 。 

Q 学 习 在 多 智能 体 情况 下 的 直接 实现 会 受到 3 个 方面 的 影响 。 环 境 不 再 固 
定 ， 常 用 的 保证 条 件 不 再 成 立 ， 而 且 假 设 合理 性 的 其 他 智能 体 处 于 非 稳定 环境 。 
已 明确 的 事实 是 智能 体 与 其 他 “合理 性 ”智能 体 相互 合作 可 改善 学 习 过 
BUS. 1) 。 回 报 取 决 于 其 他 学 习 者 的 联合 行为 。 一 般 和 博弈 的 默认 解 或 基准 解 
是 纳什 均衡 。 在 一 般 和 随机 博弈 框架 下 ， 定 义 最 优 0 值 为 纳什 均衡 策略 下 所 得 
到 的 值 ， 并 称 之 为 纳什 0 值 。 目 标 是 通过 反复 博弈 来 得 到 纳什 0 值 。 智 能 体 必 
须 学 习 其 他 智能 体 的 行为 ， 然 后 确定 自身 的 最 佳 响应 。 在 文献 [8] 中 ， 提 出 了 
两 种 网 格 博弈 : 在 网 格 博弈 1 中 ,存在 3 个 相等 值 的 全 局 最 优点 ; 网 格 博弈 2 中 
不 存在 鞠 点 或 全 局 最 优点 ， 而 是 3 组 其 他 纳什 均衡 ， 在 此 情况 下 ， 算 法 并 不 总 是 
收敛 。 

由 单 智能 体 0 学 习 可 知 ， 智 能 体 的 目标 是 找到 一 个 策略 or 以 使 得 未 来 折扣 
回报 之 和 最 大 化 ， 给 定 如 下 : 


















































































































































V=(s,7) = X B'E, I T, s =s) (4.16) 

t=0 

搜索 算法 是 试图 找到 下 式 的 平稳 点 : 
Vis, m*) = max{r(s, a) +B >, p(s’! s,a)v(s',a7*)} (4.17) 


上 述 Bellman 方程 的 解 可 保证 是 最 优 的 。 定 义 最 优 0 函数 为 
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Q“(s,a) =r(s, a) +BY p(s’ s, a)v(s',a*) (4. 18) 


式 中 ，0* (s, a) 是 在 状态 s 下 采取 行为 a 并 随后 执行 最 优 策略 时 所 获得 的 总 的 
折扣 回报 。 

根据 定义 ， 有 

V(s, 7” ) = maxQ"(s, a) (4. 19) 

如 果 已 知 0”(s, a)， 则 可 直接 通过 采取 使 得 maxQ* S(s, a) 最 大 化 的 行为 来 
求解 该 问题 。0 学 习 算 法 是 一 种 随机 逼近 算法 ， 给 定 如 下 : 

Q41(5,, 4) = (1 -4,)Q,(s,, a,) +a (r, + B maxQ, (5,41 ,a)) (4.20) 

Hu 和 Wellman!®! 的 研究 工作 局 限于 固定 策略 ， 并 得 到 如 下 定理 : 

定理 4.1 定理 4 (Fink, 1964): 每 个 nn 玩家 折扣 随机 博弈 在 固定 策略 中 至 
少 具 有 一 个 纳什 均衡 点 。 

0 学 习 算 法 在 随机 博弈 框架 的 基础 上 可 扩展 到 多 智能 体 博弈 。 纳 什 0 值 是 
指 当 所 有 智能 体 从 下 一 步 开始 执行 纳什 均衡 策略 时 的 未 来 折扣 回报 的 预期 总 和 。 
这 与 未 来 回报 仅 基 于 智能 体 自身 最 优 策略 的 单 智能 体 情况 不 同 。 

定义 41 (Hu 和 Wellmants]) 智能 体 i 的 纳什 0 函数 定义 为 对 于 (s, al, 

，a") ， 当 所 有 智能 体 执行 联合 纳什 均衡 策略 时 ， 智 能 体 i 的 当前 回报 与 其 未 
来 回报 之 和 ， 即 
Qi (s, a! =a”) = ri(s,al,.…,a") +BY, p(s’ |s, at ,QOS aw! e,m") 
S ES 










































































(4.21) 
UP, (m, e, T) RAPTOR (s, al, +, a") HERRE i EIRA s 和 
RATA (a', =, a") 下 的 回报 ， 而 VCs, m, =, m) 为 给 定 其 他 智能 体 执 
行 各 自 纳什 均衡 策略 时 智能 体 i 在 s' 状 态 下 的 总 折扣 回报 。 
在 纳什 0 学 习 算 法 中 ， 多 智能 体 0 学 习 算 法 根据 未 来 纳什 均衡 回报 进行 更 
新 ， 而 单 智能 体 0 学 习 算 法 是 基于 智能 体 自身 回报 表 中 的 最 大 4 值 进行 更 新 。 
为 得 知 纳什 均衡 回报 ， 智 能 体 还 必须 已 知 其 他 智能 体 所 获得 的 回报 。 智 能 体 必 须 
能 够 以 某 种 方式 观测 这 些 回 报 。 在 此 ， 定 义 了 阶段 博弈 和 随机 博弈 中 纳什 均衡 之 
间 的 差异 。 
定义 4.2 (Hu 和 Wellman!’ ) 一 个 nn 玩家 阶段 博弈 定义 为 (M!，…， 
M"), EF, XF k=1, =, n, M 是 在 联合 行为 空间 M = {ri(a!l,…, a") la! 
EA, =, a” eA"| 中 智能 体 的 回报 函数 , 六 为 智能 体 开 的 回报 。 
纳什 0 学习 算法 的 执行 过 程 如 下 : 初始 化 0 表 为 05(s, al, =, a") =0, Vs 
ES, al eA!,…, a" EA", 在 每 个 时 刻 :， 智 能 体 i 观测 当前 状态 并 采取 行为 。 然 
后 智能 体 观测 其 自身 回报 、 其 他 智能 体 所 获得 的 回报 和 新 的 状态 。 接 下 来 ， 智 能 
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体 计 算 阶 段 博弈 或 矩阵 博弈 中 新 状态 下 的 纳什 均衡 点 01(s') ,…,Q*(s')， 并 更 
新 其 Q 值 为 
Qia (s, a’ s+, a") = (1 -a,) Qi (s, a’ a") + a[r + B 纳什 01(s')] 


所 有 玩家 或 智能 体 执 行 的 各 自 纳什 均衡 策略 记 为 71(s'),…, 7,(s')， TQ 
(s',，T1(s') ，…, 7,(s') ) 表 示 状 态 s' 下 的 纳什 均衡 回报 。 因 此 ， 在 智能 体 确定 
纳什 均衡 时 ， 每 个 智能 体 都 必须 已 知 其 他 智能 体 的 (A ut, RER i 必须 学 
习 其 他 智能 体 的 0 值 。 例 如 ， Os 智能 体 i 可 
初始 化 其 他 智能 体 的 0 值 为 06(s, a!,…, a") =O, ZBER i 观测 其 他 智能 体 的 
回报 和 行为 ， 然 后 更 新 其 他 智 能 体 的 0 fi 更 新 规则 与 上 述 相同 ， 即 

Qals, a sa) = (1 -a@,)Q(s, a', =, a”) +o [ri +B OCs) ] 
(4. 23) 

因此 ， 只 需 更 新 0 表 中 与 当前 状态 和 行为 相关 的 条 目 。 虽 然 纳 什 0 学 习 算 
法 易于 描述 为 算法 4.2， 但 实际 上 该 算法 非常 复杂 。 用 户 需 维 护 多 个 0 表 ， 然 后 
计算 所 有 智能 体 约定 的 纳什 均衡 。 纳 什 0 学 习 算法 实现 的 难点 之 一 是 纳什 均衡 
的 计算 。Hu 和 Wellman!’ RHH T Lemke - Howson 算法 I。 该 算法 将 在 4.6 节 中 
给 出 详细 描述 。 在 此 ， 给 出 文献 [8] 中 所 提出 的 用 于 评估 其 他 算法 的 两 个 网 格 
韦 弈 示例 。 博 弈 游戏 如 图 4-4 和 图 4-5 所 示 。 









































障碍 
墙壁 : 概率 1/2 
非 墙壁 : 概率 1/2 











图 4-4 ”两 个 随机 博弈 游戏 (一 ) (7) 
a) 网 格 博弈 游戏 1 b) 网 格 博弈 游戏 2 





























a) ) 
图 4-5 两 个 随机 博弈 游戏 (二 ) 转载 自 文献 [8] ， 经 MIT 版 权 许可 
a) 网 格 博弈 游戏 1 的 纳什 均衡 b) 网 格 博弈 游戏 2 的 纳什 均衡 
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智能 体 可 向 上 、 下 、 左 、 右 移动 。 如 果 两 个 智能 体 移 动 到 同一 单元 格 ， 则 返 
回 ， 除 非 是 目标 单元 格 。 当 一 个 智能 体 达到 目标 状态 时 ,游戏 结束 。 如 果 两 个 智 
E a oi ee 智能 体 最 初 并 不 知道 各 自 回报 或 目 
标 。 智 能 体 同 时 选择 行为 。 网 格 单元 定义 为 从 左下 角 的 单元 状态 0 开始 ， 并 从 左 
问 右 逐步 增加 ， 直 到 右上 角 为 单元 状态 8。 例 如 ， 右 下 角 为 单元 状态 2。 行为 空 
HEA =£, A, 下 ,上 | ,一 个 给 定 状态 记 为 ;= (20, 了)， 其 中 7 和 分 别 表 
示 第 一 个 智能 体 和 第 二 个 智能 体 所 处 的 位 置 。 如 果 一 个 智能 体 达 到 其 目标 ， 则 可 
获得 回报 100。 如 果 两 个 智能 体 冲 突 ， 则 都 返回 其 初始 位 置 ， 并 得 到 惩罚 -1， 
如 果 智 能 体 移动 到 一 个 空 的 单元 格 ， 则 获得 回报 0。 
在 网 格 博弈 1 中 ， 状 态 转移 是 确定 性 的 ， 而 在 网 格 博弈 2 中 ， 通 过 障碍 的 转 
移 概率 为 50% 。 例 如 ， 如 果 在 状态 (0, 2) 下 ， 智 能 体 1 选择 行为 上 ， 而 智能 
体 2 选择 行为 左 ， 则 可 得 状态 转移 概率 为 
P((0, 1)1(0, 2), E, 左 ) =0.5 
P((3, 1)1(0, 2), E, 左 ) =0.5 
同 理 ， 有 P((1, 2)1(0, 2), 右 , 上 ) =0.5 和 P((1,5)1(0,2), 右 , 上 ) = 
。 纳 什 0 学 习 算 法 假定 策略 都 是 固定 的 。 固 定 策略 是 根据 当前 状态 对 智能 体 
ee 而 与 历史 状态 无 关 。 这 意味 着 ， 如 果 智 能 体 处 于 同一 状 
态 ， 则 这 些 智能 体 的 行为 策略 都 将 相同 。 












































































































































假定 现 有 纯 策 略 ， 例 如 在 博弈 1 中 ， 且 表 4.4 状态 和 策略 
策略 仅 是 基于 智能 体 的 位 置 ， 则 策略 表示 一 状态 T’ (s) 
e. (I, AEW) 是 指 智能 体 1 在 状态 (0, 2) $ 
， 而 智能 体 2 在 任何 状态 。 由 此 得 到 一 个 (3, 5) 右 
ae 见 表 4.4。 图 4-5 给 出 了 其 (4, 8) ti 
中 的 一 个 纳什 均衡 策略 。 定 义 智 能 体 1 的 博 (5， 任 何 ) 上 








弈 值 ， 从 而 得 到 当 两 个 智能 体 均 执行 各 自 纳 
什 均衡 时 ， 累 积 回报 为 
vi(s0) = X B'E, | T, T, so) (4. 24) 
在 网 格 博弈 1 中 ， 且 初始 状态 为 s, = (0, 2), TEAR B=0.99 下 ， 可 得 
v' (so) = 0 +0.99 x0 +0.99 x2 x0 +0.99° x 100 = 97 (4. 25) 
根据 每 个 状态 的 值 ， 可 推导 智能 体 1 在 状态 so 的 纳什 O 值 为 
Q1(s0,a! a’) = = ri (so, a! a’) +B Lvs! | so, a! a° Jo! (s') (4.26) 
在 此 ， 评 估 智 能 体 1 在 状态 (0, 2) 下 不 同行 为 的 0 值 。 首先 从 行为 ( 右 ， 
E) 开始 。 如 果 采 取 行 为 ( 右 ， 左 )， 则 两 个 智能 体 将 会 碰撞 。 这 会 得 到 惩罚 为 
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r'((0,2), #,4) = -1。 因 此 , 在 状态 (0, 2) 下 采取 行为 (A, A), ， 并 执 
行 最 优 路 径 之 后 ， 状 态 (0, 2) (因为 智能 体 返 回 至 状态 (0, 2)) 的 0 值 为 








O! (so, A, A) =-1+pBv((0,2)) (4. 27) 

在 此 , 已 计算 出 ww((0, 2)) =97， 因 此 
Q! (so, A, A) =-1 +0.99 x97 = 95.1 (4. 28) 

但 对 于 每 个 智能 体 都 向 上 移动 的 @ 值 为 
O! (so, E, E) = 0 +0.99v(3,5) = 97 (4. 29) 














智能 体 在 状态 (0, 2) 下 的 纳什 0 值 见 表 4.5。 对 于 网 格 博弈 2， 可 推导 出 
纳什 @ 值 。 在 此 情况 下 ， 巾 于 没有 确定 性 的 状态 转移 ， 因 此 更 复杂 。 设 智能 体 
从 图 4-6 中 的 状态 (0, 1) 开始 。 然 后， 对 于 该 位 置 的 最 优 路 径 是 智能 体 2 向 
上 移动 两 步 ， 并 得 到 回报 。 智 能 体 1 不 能 在 智能 体 2 之 前 达到 目标 。 因 此 ， 智 能 
体 1 的 值 为 


























v'(0, 1) =0+0.99 x0 +0.99 x0 =0 (4. 30) 
R45 网 格 博弈 游戏 1: 状态 (0, 2) 下 的 纳什 和 值 
行为 左 T 
A 95.1, 95.1 97, 97 
上 97, 97 97, 97 
目标 状态 





Al4-6 带 障碍 的 网 格 博弈 游戏 ， 从 位 置 (0, 1) 开始 





然而 ， 若 从 状态 (C1, 2) 开始 ， 则 智能 体 1 执行 两 步 向 上 行为 而 获胜 ， 智 
能 体 1 的 值 为 








v'(1,2) =0 +0.99 x100 = 99 (4.31) 

若 从 状态 (0, 2) 开始 ， 则 只 能 计算 期 望 值 ， 这 是 因为 如 果 智 能 体 选择 癌 

上 的 行为 ， 则 只 有 50% 的 概率 会 向 上 移动 ， 另 外 50% 的 概率 是 待 在 原 地 。 则 从 
状态 (0, 2) 开始 ， 得 到 的 0 值 为 

0'((0,2), A, A) =-140.990'((0, 2)) (4. 32) 

下 一 行为 是 0Q1((0, 2), A, 上 )。 在 这 种 情况 下 ,智能 体 仅 有 50% 的 概率 
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会 向 上 移动 。 因 此 ，0: 值 为 
O's HP) = 0 +0.99(91(1,2) +501, 5)] (4. 33) 
如 果 智 能 体 采取 行为 ( 右 ， 上 )， 则 可 能 在 状态 (1, 2) 或 (1, 5) 结 
现在 ,假设 如 果 智 能 体位 于 状态 (1，2) ， 则 最 优 解 是 采取 两 步 向 上 的 行为 。 同 
理 ， 智 能 体 在 状态 (1, 5) 的 最 优 解 是 采取 向 上 和 向 左 的 两 步行 为 。 此 时 ， 值 
vi (1, 2) =v'(1, 5) =0+0.99 x100=99。 由 此 可 得 


0Q1((0,2), 右 , E) = 0 +0.99(5-(0. 99) g 30.99) ) = 0.98 (4.34) 
现在 ， 分 析 Q'((0, 2), E, A) 的 情况 。 这 种 情况 下 ， 智 能 体 1 仅 有 50% 
的 概率 向 上 移动 ， 另 外 50% 的 概率 是 待 在 原 地 。 由 此 可 得 
Q'((0,2), 上 , 左 ) =0+0.99(30(0, 1) + 30(3, 1)) (4. 35) 
BA ov =0， 这 是 因为 智能 体 2 会 进行 两 步 向 上 行为 而 获胜 。 如 果 智 能 体 1 
通过 障碍 ， 则 位 于 状态 (3，1) ， 这 时 智能 体 1 再 采取 向 上 和 向 左 两 步行 为 而 获 
胜 ， 同 时 智能 体 2 采取 两 步 向 上 的 行为 也 会 获胜 。 由 此 可 得 vi (1, 3) =0 +0.99 
x100 =0. 9992 ， 接 下 来 ， 计 算 最 优 0 值 为 
01((0,2) ,上 , Æ) = 0 +0.99( x0 ++-x99)= 49 (4.36) 
最 后 ， 计 算 Q'((0, 2), E, 上 ) 时 的 @ 值 。 在 这 种 情况 下 ， 下 一 状态 具有 4 
种 可 能 回报 。 每 个 智能 体 都 有 50% 的 概率 向 上 移动 ， 因 此 有 25% 的 概率 两 个 智 
能 体 都 同时 向 上 移动 。 即 到 达 状 态 (3, 2), RA (3, 5), HA (0, 2) 和 状 
aS (0, 5) 的 概率 均 为 25%。 因 此 ，0'((0, 2), 上 , 上 ) 的 0 值 为 


@'((0,2), E, E) = 
i 1, 1 ， bi li 
+0.99( Zv (3,2) re (3, 5) +T” (0,2) +7” (0, 5)) (4. 37) 



































Elo! (3, 2) =99 v! (3, 5) =99 Alv' (0, 5) =0, MI 
: 1 ， 1 1 1 
O((0,2),， 上 ,上 ) =0 +0.99) —v' (0, 2) +— x99 +— x99 + — x0 
4 4 4 4 
=0.99 xv! (0, 2) +24.5 +24. 5 


=0.99 x 0!(0, 2) +49 





”此 处 原 书 有 误 ， 应 为 9。 一 一 译 者 注 
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MÆ, EX R =0'(0, 2) 为 智能 体 1 从 状态 (0, 2) 开始 执行 纳什 均衡 策 
略 后 的 最 优 值 。 在 博弈 2 中 智能 体 1 从 状态 为 (0, 2) 开始 ， 明 显 的 纳什 均衡 
为 B, E), F ( 右 ， 上 ) 为 纳什 均衡 ， 则 二 (0,2) =0.98。 从 而 可 推导 出 
0 表 中 的 其 他 值 。 另 一 方面 ， 对 于 智能 体 2， 明 显 的 纳什 均 衔 为 (上 , £), 但 
对 于 智能 体 1， 则 是 01((0, 2), E, 左 ) =49。 此 外 ， 还 存在 一 个 混合 策略 (1P 
( 右 ) =0.97, P(E) =0.031，1P( 左 ) =0.97, P(E) =0.031) 。 在 网 格 博弈 2 
中 ， 有 3 组 可 能 的 纳什 均衡 。 


4.4.1 学 习 过 程 


设 智能 体 1 的 学 习 过 程 首 先 从 对 所 有 的 s、o Ala? 初始 化 0 RA Q Cs, al, 
a) =0 开始 。 这 些 是 智能 体 1 的 内 部 信任 ， 而 与 其 他 智能 体 无 关 。 游 戏 从 初始 
状态 (0, 2) 开始 。 然 后 智能 体 同 时 移动 并 观测 智能 体 采取 的 行为 和 获得 的 回 
报 。 然 后 ， 智 能 体 根 据 下 式 来 更 新 其 O K: 
Qi (s, al oz) = (1 -a,)Qi(s, a a?) +a [r + y Att Qis) J 
(4.38) 
在 下 一 状态 重复 上 述 过 程 ， 直 到 达到 目标 状态 。 然 后 开始 新 游戏 ， 并 对 每 个 
智能 体 随 机 分 配 一 个 除 目标 状态 之 外 的 新 起 始 位 置 。 经 5000 局 后 训练 结束 ， 每 
一 局 大 约 需要 执行 8 个 行为 。 因 此 ， 一 次 实验 大 概 执行 40000 个 行为 。 此 外 ， 学 
习 速 率 给 定 为 













































































1 
nis, a', a) 
AF, n, (s, a, @7 ) 为 访问 状态 和 行为 (s，a! ，a?) 的 次 数 。 
观察 算法 可 知 ， 必 须 计算 具 有 CO! (st) FQ? (s')) 的 阶段 博弈 的 纳什 
均衡 ， 这 可 能 需 在 多 个 纳什 均衡 之 间 进 行 选择 。Hu 和 Wellman!®! 3% FA Lemke - 
Howson! "| 算法 来 计算 双人 博弈 的 纳什 均衡 。Lemke - Howson 算法 类 似 于 线性 规 
划 中 的 单纯 形 算法 。 


4.5 单纯 形 算法 


(4. 39) 


a(S, a', a’) 
































NIE Se ae PRR ET A S.A TE CET 
足 一 些 线性 约束 的 条 件 下 最 大 化 效用 函数 或 成 本 函数 的 问题 。 线 性 规划 模型 如 
下 : 最 大 化 





V= Cj (4. 40) 
满足 约束 条 件 集 : 
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j=l 
单纯 形 算法 是 搜索 定义 解 空间 可 访问 区 域 的 多 面体 的 顶点 。 具 体 是 从 各 个 顶 
点 中 搜索 解 。 该 算法 假定 具有 非 负 性 。 通 过 增加 松弛 变量 将 不 等 式 转化 为 等 式 。 
在 此 ， 以 如 下 示例 为 例 。 该 示例 来 自 于 期 刊 工程 系统 设计 与 规划 093] ( 见 图 
4-7) 。 最 大 化 
V = 13x, + 11x, (4. 42) 
约束 方程 


X2 








~ 


0 50 100 150 200 250 300 350 400 450 





x 
图 4-7 单纯 形 算法 的 约束 方程 
满足 下 列 约束 条 件 : 
4x, + 5x, < 1500 
5x, + 3x, < 1575 (4. 43) 
x, +2x%, < 420 
以 及 非 负 性 约束 x, <0 和 x, 大 0。 对 于 每 一 个 约束 ， 增 加 松弛 变量 x3, x4 或 xs。 
由 此 ， 可 将 不 等 式 约束 转换 为 等 式 约束 ， 即 
4x, + 5x, +x, = 1500 
5x, + 3x. +44 = 1575 (4. 44) 
x, +2x, +x; = 420 
松弛 变量 表征 了 不 等 式 在 达到 约束 之 前 具有 多 大 空间 。 在 初始 化 线性 规划 系 
统 模型 时 ， 首 先 设 变量 x, =0 和 >x =0。 由 此 可 得 松弛 变量 的 解 为 x" =[0, 0, 0， 
1500, 1575, 420 ] 。 非 零 变 量 称 为 基 变 量 。 在 所 选择 的 第 一 个 时 间 步 中 ， 原 点 作 











第 4 章 多 人 随机 博弈 学 习 75 





为 第 一 个 顶点 ， 且 回报 值 或 值 函 数 z 为 零 ， 即 z=0。 接 下 来 需 移 动 到 下 一 个 极 值 
点 。 这 相当 于 将 一 个 变量 从 基 变 量 中 移出 ， 而 将 男 一 个 变量 移入 基 变 量 。 下 一 步 
是 确定 哪个 变量 从 基 变 量 中 移出 ， 而 哪个 变量 移入 基 变 量 。 在 此 ， 将 使 得 回报 函 
数 增幅 最 大 的 变量 纳入 基 变 量 。 因 此 ， 在 本 例 中 ， 是 将 wx 移 人 基 变 量 ， 这 是 因 
为 对 于 x 的 每 个 单元 ， 回 报 函 数 会 增加 13 个 单元 ， 而 对 于 x 的 每 个 单元 ， 回 
报 函 数 仅 增加 11 个 单元 。 接 下 来 ， 当 wx; =1500/4 =375 时 ,满足 第 一 个 约束 条 
件 ， 则 x3 =0。 当 xi =1575/5 =315 时 ,满足 第 二 个 约束 条 件 ， 则 x =0, 4x, = 
420 和 ws =0 时 ， 满 足 最 后 一 个 约束 条 件 。 因 此 ， 当 xi =315 时 ， 首 先 满足 约束 
Co A, x, 进入 基 变 量 , Mix, =0 移出 基 变 量 。 在 此 ， 仅 根据 非 基 变量 来 表示 
基 变 量 。 这 是 高 斯 消 元 法 的 一 种 形式 。 在 下 一 个 顶点 ， 可 得 x = 315, x =0 和 
x4 =0。 由 此 ， 可 得 系统 方程 为 
z—13x -1llx，= 0 A 
4x, +5x, +x, S 1500 B 
Sx, + 3x, +4, S 1575 C 
xı + 2%) +x; S420 D 
注意 ，w 为 趋 于 0 的 松弛 变量 。 因 此 ， 可 用 式 C 来 求解 x,。 实 际 上 ,采用 
高 斯 消 元 法 ， 先 将 式 CRA 13/5， 并 将 式 C 与 式 A 相 加 ， 从 而 得 到 
z—16/5x, +13/5x, =4095 Al 
然后 ， 将 式 C 乘 以 -4/5， 并 与 式 B 相 加 ， 可 得 
13/5x, +x3 -4/5x, =240 B1 
同 理 ， 将 式 C 除 以 5， 可 得 
x, +3/5x,+1/5x%,=315 Cl 
最 后 ， 将 式 C 乘 以 -1/5, F5 D 相 加 ， 从 而 得 到 
7/5xs -1/5x, +x; =105 DI 
由 上 述 方程 可 知 ， 如 果 x 增 大 ， 则 回报 函数 z 也 增 大 。 这 是 因为 式 Al 中 x。 
的 系数 为 负 。 所 以 ，x; MAHE, M x, 和 xs 移出 基 。 松 弛 变量 x 仍 为 零 ， 
为 是 沿 着 约束 C 定义 的 边 移 动 。 在 这 条 边 上 ， 松 弛 变量 总 为 零 。 
KRE, Hx, 和 % WAM, x, 应 该 增 大 到 5. 24/13 = 92. 3; WR x, 和 ws 为 
F, MW x. 增 大 到 5105/7 =75; Wx, Ax, HE, VW) x, 增 大 到 5315/3 = 525 。 
极限 情况 是 当 xs 且 为 零 时 。 这 表示 两 个 约束 C 和 DD 的 交集 。 然 后 ， 再 次 采用 
高 斯 消 元 法 并 列 写 x, 和 xs 的 方程 。 接 着 ， 将 式 D1 RA 16/5 x5/7， 将 其 与 式 
Al 相 加 ， 得 到 























(4. 45) 
































z+15/7x4 +16/7xs =4335 A2 
可 在 不 违背 约束 条 件 下 再 增 大 z。 同 样 ， 通 过 将 式 D1 FEW - 13/5 x5/7, 并 
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将 其 与 式 B1 相 加 ， 可 从 式 Bl 中 消除 x, ， 从 而 得 到 
x3 -3/7x4 -13/7xs =45 B2 
同样 ， 对 于 式 C1, 将 D1 乘 以 -3/5 x5/7， 并 将 其 与 式 Cl 相 加 ， 得 到 
x, +10/35x, -3/7xs =270 C2 
最 后 ， 将 式 D1 RA 5/7, 448] 
x, -1/Tx, +5/7xs =75 D2 
综 上 ， 可 列 写 方程 : 
z+15/Tx, + 16/17x = 4335 A2 


x3 — 3/1x4 — 13/7x5 = 45 B2 

(4. 46) 
x, + 10/35x%, -3/7x 5 = 270 C2 
wy = 1/7x, + 5/7x5 = 75 D2 


值得 注意 的 是 ， 在 约束 方程 C 和 D 的 交集 处 ， 松 弛 变量 x 和 xs HA, HK 
后 ， 成 本 或 回报 函数 的 最 优 值 为 z=4335 、x; =270, x, =75， 由 式 B 给 出 的 约束 
条 件 的 松弛 变量 为 x; =45。 





4.6 Lemke - Howson 算法 














ee ee es 
家 1 的 行为 记 为 M= | 1 m| ， 玩 家 2 的 动作 记 为 N= Tm+1,…, m+n|。 玩 
家 的 回报 通常 由 回报 矩阵 给 定 。 玩 家 1 和 玩家 2 的 回报 为 矩阵 分 别 为 矩阵 A 和 条 
阵 8。 如 果 有 一 个 由 行为 (x,，y) 确定 的 混合 策略 ， 则 玩家 1 的 回报 为 xz4y， 
玩家 2 的 回报 为 x'By。 一 个 矢量 的 支 集 定义 为 supp|. 上， 表示 矢量 中 非 零 元 素 
的 索引 。x 表示 智能 体 1 的 所 有 可 能 的 混合 策略 ，y 表示 智能 体 2 的 所 有 可 能 的 
混合 策略 。 假 定 和 矩阵 4 和 B 中 均 为 正 元 素 ， 且 没有 全 和 零 行 或 列 。 令 B; 表示 矩阵 
B 中 对 应 于 行为 j AS, Al 表示 和 矩阵 4 中 对 应 于 行为 i 的 行 。 定 义 两 个 多 面体 
P, = {x e R”| (Vi © M:x, 20) (Vj e N:x'B <1))} (4. 47) 
P, = ly e R"I (Wie Niy, 20) (Wie M:Aly <1)} (448) 
策略 由 nrml (x) : Sy eo 3 给 定 。 定 义 已 的 不 等 式 具 有 以 下 含义 : 
o 如 果 xePi 满足 zx;=0， 如 x;,=0， 则 ;不 在 x 的 文集 中 。 
o WR x eP 满足 x"B,<1 ， 则 7 是 nrml(x) 的 最 佳 响应 。 
求解 一 般 和 博弈 中 纳什 均衡 的 方法 是 Lemke - Howson 算法 及 其 扩展 算法 。 
出 于 完整 性 考虑 ， 在 此 介绍 Lemke - Howson 算法 。 此 外 ， 这 些 算 法 都 是 基于 线 
性 规划 的 方法 ， 如 单纯 形 算 法 。Lemke - Howson 算法 是 纳什 O 学 习 算 法 的 核心 
算法 ， 尽 管 在 Hu 和 Wellman 的 开创 性 论文 中 只 是 稍 有 提 及 该 算法 。 
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Lemke - Howson 算法 类 似 于 单纯 形 算法 。 这 种 算法 适用 于 双人 双 和 矩阵 博 穿 。 
纳什 0 学 习 算法 在 每 次 迭代 中 都 采用 该 算法 来 求解 双人 博 穿 的 纳什 均衡 。 特 别 
是 ，Hu 和 Wellmants1 在 其 示例 中 采用 了 该 算法 。 设 玩家 1 具有 记 为 M= | L, 
mj 的 m 个 行为 ,玩家 2 BAIN N=|m+1, =, m+n) Hn AITH., De H e 
RABE RAN A mxn EE, ELNE 1 的 回报 矩阵 为 矩阵 4， 玩家 2 的 回报 
矩阵 为 矩阵 B。 在 此 ， 玩 家 1 选择 行 中 的 行为 ， 玩 家 2 选择 列 中 的 行为 。 同 时 ， 
定义 一 个 m 维 的 行 矢量 x 来 表示 玩家 1 选择 每 个 可 能 行为 的 概率 。 行 矢量 x 中 元 
素 之 和 为 1。 同 样 ， 定 义 一 个 n 维 的 列 矢 量 来 表示 玩家 2 选择 每 个 可 能 行为 的 概 
率 。 由 此 ，x se R” 是 表示 玩家 1 混合 策略 的 行 矢量 ,而 ye R" 是 表示 玩家 2 混合 
策略 的 列 矢量 。 玩 家 1 的 预期 回报 可 表示 为 

R, = x"Ay (4. 49) 
































玩家 2 的 预期 回报 表示 为 
R, = x'By (4. 50) 
类 似 于 单纯 形 法 ， 和 定义 任 一 策略 的 文集 为 x 或 y AAT BERERE 
4 没有 全 零 列 ， 答 阵 互 没有 全 零 行 ， 且 矩阵 4 和 8 的 元 素 都 为 正 。 设 有 aE 
阵 B 的 一 列 ，a' 表示 和 矩阵 4 的 一 行 。 从 而 可 定义 两 个 多 面体 如 下 : 
P, = {x e R"| (Yie M:x; 20) (Vj e N:x'B, <1)} (4.51) 
P, = lye R"| (Yje Miy, 20) (Vie M:A'y <1)} (4. 52) 
上 述 定 义 的 多 面体 中 的 不 等 式 具有 以 下 含义 : WR x; =0， 则 x%; 不 在 x 的 文 
集 或 基 中 。 值 得 注意 的 是 ， 单 纯 形 算法 中 的 相应 描述 。 第 二 个 等 式 约束 为 x”B; = 
1。 这 表示 玩家 2 的 行为 7 是 玩家 1 策略 * 的 最 佳 响应 。 如 果 列 B, 中 的 元 素 之 和 
大 于 1， 则 x 的 元 素 之 和 将 小 于 1， 同 时 为 了 表征 策略 ， 需 对 x 进行 归 一 化 : 




















nrml(x): = ($x) x (4.53) 
在 此 ， 定 义 标签 如 下 : WR ke MH x, =0 或 keN H xB, =1， 则 策略 xe 
P, 具有 标签 ke MUN=|1,2,…, m+n|。 这 样 ， 可 提出 以 下 定理 : 


定理 4.2 设 xeP， yeP,, 日 x 或 y 均 不 是 全 零 矢 量 。 如 果 (nrml(x) ， 
nrml(y) ) 是 一 个 纳什 均衡 ， 则 x Al y 共同 具有 1 ~% 的 所 有 标签 。 
在 此 ， 以 一 个 简单 示例 来 说 明 Lemke - Howson 算法 是 如 何 实现 的 。 设 一 个 
双人 双 行 为 博弈 ， 其 中 回报 矩阵 的 值 如 下 : 
4 6 3 2 
4= | s= | | (4. 54) 
多 面体 P, 和 P, 定义 为 满足 约束 4iy<1 A Bx <1, Hx, 20 Al y,20 分别 
如 图 4-8 和 图 4-9 所 示 。 与 单纯 形 法 一 样 ， 通 过 增加 松弛 变量 ， 将 这 些 不 等 式 约 
束 转 化 为 等 式 约束 。 定 义 松 弛 变量 ~” 为 
A‘y +7, = 1 (4.55) 
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同 理 


Bly + s; =l 
多 面体 1 的 约束 
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X2= 1/4-1/2 X1 
B2 多 面体 , ss= 0 


Xp = 1-3 x, 


B1 多 面体 , ss= 0 
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图 4-8 多 面体 P 
多 面体 2 的 约束 
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Ji = 1/3-5/3 y, 
A2 多 面体 ， lo = 0 





JW = 1/6-2/3 y, 
A1 多 面体 , r,=0 
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图 4-9 多 面体 P， 














接 下 来 ， 类 似 于 单纯 形 法 , 将 r, =1 -Ay 写 为 
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ri =1 -4y3 -6y, Al 
ry =1-S5y,-3y, A2 
HH, ARs, =1 -Bx BH 
Ss, =] -3x, 一 0 Bl 
s4 =1-2x, -4x, B2 
这 样 就 可 绘制 出 如 图 4-8 所 示 的 约束 条 件 。 设 松弛 变量 均 为 零 ， 即 % = sy = 
0。 对 于 多 面体 (x,, x) 的 等 式 约束 则 变 为 


Wy =1 -3x, 
_ 工 _ 工 
“=y a" 
同 理 ， 对 于 多 面体 (y3, y4) WARK 
_ 工 _ 之 
Sane 6 3 3 
1 35 
Jys 3 393 


首先 将 x, 任意 移入 基 中 。 然 后 ,约束 BI 限制 x, 增 大 到 1/3, ， 如 图 4-8 所 
示 。 沿 着 BI 约束 线 ， 松 弛 变量 s 为 零 。 接 下 来 ， 根 据 互 补 条 件 ssy =0， 将 y3 
移入 基 中 。 由 式 BL 可 求解 x: 





3x, = l= =h 


Xi -3 ye 77353 
式 中 ，x =0; s, =0。 
将 x, 代入 约束 方程 B2， 可 得 


s, =1 -23-4 -4s ] -4an 


3 3 
2 2 2 
sy =1 -3 t3% +38 -4x 
$4 =- 本- + B2 


Ned a 、 4 ae 一、 ws 1 
这 就 是 所 有 过 程 : 智能 体 1 任意 选择 行为 1， 当 ss =0 时 , wi = All xy =0 


首先 满足 约束 条 件 B1。 这 意味 着 ， 对 于 智能 体 1 选择 行为 1， 智 能 体 2 的 最 佳 响 
应 是 采取 行为 3， 即 和 矩阵 B 给 定 的 回报 函数 的 第 一 列 。 显 而 易 见 ， 如 果 智 能 体 1 
采取 行为 1， 则 智能 体 2 应 选择 行为 3， 即 和 矩阵 B 的 第 一 列 ， 由 此 智能 体 2 得 到 
的 回报 为 3。 如 果 智 能 体 2 选择 行为 4， 则 智能 体 2 的 回报 仅 为 2。 鉴 于 智能 体 1 
选择 行为 1， 这 意味 着 智能 体 2 选择 行为 3 ， 这 相当 于 y BAZ. y, 的 限制 条 件 
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由 约束 A2 给 出 。 然 后 ， 根 据 约束 A2 求解 ”3 : 


了 
=z 54 5 2 





式 中 ， ys =0; ry =0, 
计算 ry 


1 
m =1 -4{ 4-35, -En ) -óy 
1 1 4 
Ti = 594 tz A2 
由 此 可 得 ， 由 于 7, =0， 对 于 智能 体 2 采取 行为 3 的 最 佳 响应 是 智能 体 1 采 
取 行 为 2。 然 后 ， 在 多 面体 (x1, x) PMs, =0 REI, RE, HF vrn =0, 
将 x 加 入 基 中 ， 并 由 方程 B2' 求 解 Xz: 








10 1 2 
a 53 +353 = S4 
sadada 

2 -10 55 104 


式 中 , s3 =s4 =0。 
1 (3 1 3 ) 1 9 16 Í 
i= 


=3 73 (1055710) 333730 15° +16% 
































然后 ， 由 于 s, =0， 选 择 将 y 移 和 人 基 中 。 显 然 ， 对 智能 体 1 采取 行为 2 的 最 
佳 响应 是 智能 体 2 采取 行为 4， 并 得 到 回报 4。 继续 由 方程 A2' 求 解 y, ， 得 到 
Senos 
574-5 1 “5 2 
1 5 4 P 
Y4 =Tg 18"! tig” A 


然后 ,ri =0, x, 应 移入 基 中 ,但 由 于 其 已 在 基 中 ， 因 此 算法 结束 。 在 此 ， 
3 1 1 























将 博弈 策略 归 一 化 。 当 前 解 为 xi =F a gp D =U =. W 
化 的 策略 为 
3 1 
1 1 1 
"osz T54 和 1 
10 10 10 10 
3 1 
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人 fe thee a 17° 3 1y a 
检查 策略 是 否 可 行 。 给 定 x = | 六 ,地 | 和 y= [于 ,元 |] ， 则 智能 体 1 的 


回报 为 


3 3 
‘ 4 4 6] 4 

R, =xoAyo = iis al i =4.5 
4 4 


也 可 表示 为 归 一 化 之 前 的 形式 ， 在 此 情况 下 得 到 约束 条 件 为 





3 37) 1 1 
18 
同样 ， 也 可 检查 智能 体 2 的 回报 
3 3 
4 Ir3 21 4 
R, = x! By, = =29 
2 oP Yo i | 1] i 
4 4 
再 次 验证 约束 条 件 : 
3 
3 17/10 1 
B'x* = = 
ine 
10 


注意 ， 条 件 xp Ayo Sx" Ayo Ml xo Byo S xy By。 这 就 是 说 如 果 智 能 体 2 执行 其 
最 优 策 略 ， 且 如 果 智 能 体 1 执行 任意 策略 ， 则 将 优 于 最 优 策 略 ze ， 对 于 智能 体 2 
也 类 似 。 因 此 ， 表 明 无 法 得 到 使 得 R 优 于 最 优 策略 选择 的 x。 已 知 智能 体 1 的 
最 优 回报 为 RË =xlAy =4.5。 可 以 找到 一 个 策略 x Ax, 能 使 得 R, =xT4y >4.5 
吗 ? 可 知 : 


























3 
"= bls ss 
4 


EIKI e 4 


% si sjt =1 (4.57) 

同 理 ， 对 于 智能 体 2， 有 R =x) By, > xt By, 但 已 知 x4B =[2.5, 2.5] 和 

x1B =[ 1,1]。 因 此 ， 如 果 智 能 体 2 选择 其 最 优 策略 y。 ， 则 不 管 ads iat 
智能 体 1 总 是 得 到 回报 4 5; 同 理 ， 如 果 智 能 体 1 选择 其 最 优 策略 xo, WANE 
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用 何 种 策略 ， 智 能 体 2 总 是 得 到 最 优 回报 2. 5。 这 时 ， 就 可 得 知 对 于 智能 体 1 确 
保 Brx =1 以 及 对 于 智能 体 2 确保 Ay =1 的 约束 条 件 的 重要 性 。 对 于 约束 条 件 
B x = 1， 这 意味 着 智能 体 2 的 回报 受到 智能 体 1 策略 的 限制 ， 且 同 理 ， 约 束 条 
件 4y =1 意味 着 智能 体 1 的 回报 受到 智能 体 2 策略 的 限制 ， 两 个 约束 条 件 相互 
约束 可 产生 最 大 回报 。 











4.7 纳什 和 学 习 算 法 实现 








实现 纳什 0 学 习 算 法 的 目的 是 重复 Hu 和 Wellman 得 到 的 实验 结果 。 该 实验 
结果 在 网 格 博弈 1 和 2 中 是 非常 确凿 的 。 当 两 个 智能 体 都 是 纳什 Q 学 习 者 时 ,在 
此 需 重 新 构建 博弈 情景 。Hu 和 Wellman 的 研究 表明 在 每 局 博弈 中 两 个 智能 体 都 
能 100% 地 学 习 到 纳什 均衡 策略 。 这 么 高 的 结果 表明 该 算法 在 这 个 特定 情景 下 性 
能 良好 。 

Lemke - Howson 算法 可 用 于 搜索 双 和 矩阵 博弈 的 纳什 均 衔 。 在 此 ， 采 用 Hu 和 
Wellman 的 最 初 算法 并 使 其 适用 于 MATLAB 环境 。 该 算法 的 目的 是 找到 多 个 纳什 
均衡 。 这 是 基于 文献 [14] 的 研究 工作 。 算 法 输入 是 两 个 玩家 的 回报 和 矩阵， 输 
出 是 纳什 均衡 。 在 多 次 实现 过 程 中 ， 一 直 采 用 文献 [8] 中 的 参数 。 在 文献 [8 ] 
中 ， 智 能 体 进 行 了 5000 次 博弈 。 达 到 收敛 所 需 的 博弈 次 数 受 学 习 速 率 a 变化 的 
影响 。 其 中 ，a 与 每 个 状态 元 组 (s, a, e) 的 访问 次 数 成 反比 。 在 此 ， 考 虑 
5000 为 一 个 合理 的 博弈 次 数 ， 这 是 因为 在 多 次 测试 后 ， 计 算出 每 个 状态 会 平均 
访问 93 次 。 

在 此 ， 采 用 一 种 比 文献 [8] 中 学 习 方 法 更 为 通用 的 方法 来 实现 。 在 第 一 次 
实现 中 ， 智 能 体 总 是 能 够 选择 4 种 行为 之 一 。 这 意味 着 如 果 智 能 体 选 择 跨越 墙 
壁 ， 则 会 返回 ， 并 得 到 负 回 报 或 零 回报 。 此 外 ，Lemke - Howson 算法 会 利用 每 个 
状态 下 所 有 4 种 行为 的 纳什 Q 值 。 这 意味 着 算法 的 实际 运算 量 大 于 其 所 需 的 运 
算 量 。 此 时 得 到 的 结果 并 不 确凿 。 在 第 二 次 实现 中 ， 改 变 算法 以 使 得 智能 体 无 法 
选择 超出 边界 的 行为 。 事 实 上 ， 纳 什 @ 学 习 者 是 一 个 在 随机 选择 下 一 步 时 可 帮 
助 创建 边界 的 离线 学 习 者 。 算 法 的 改变 对 结果 产生 积极 影响 ， 使 得 成 功率 约 为 
25% 。 但 这 仍 远 低 于 文献 中 提 到 的 成 功率 。 在 最 后 一 次 实现 中 ， 只 对 可 能 行为 采 
用 Lemke - Howson 算法 。 这 意味 着 智能 体 只 在 该 状态 可 能 行为 下 计算 下 一 状态 
的 纳什 均衡 策略 。 这 时 ， 两 个 纳什 9 学 习 者 能 够 100% 成 功 得 到 纳什 均衡 策略 。 
表 4.6 给 出 了 在 初始 状态 (1，3) 时 的 纳什 0 值 。 
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表 4.6 网 格 博弈 1。 状 态 (1, 3) 下 的 纳什 和 值 
上 左 





96, 95 92, 92 











A 85, 85 89, 85 


最 后 ， 决 定 采用 Hu 和 Wellman 所 提 的 相同 方法 来 确认 最 终结 果 ， 这 意味 着 
智能 体 将 在 每 个 状态 随机 选择 一 种 行为 。 玩 家 的 起 始 位 置 在 每 次 博弈 游戏 中 都 会 
变化 ， 可 以 在 除 目标 位 置 以 外 的 一 个 随机 位 置 开 始 ， 这 能 够 确保 每 个 状态 都 会 被 
经 常 访问 到 。 根 据 文献 [8] ， 学 习 速率 取决 于 每 个 状态 -行为 元 组 的 访问 次 数 。 
学 习 速 率 a HF as, a! a?) = — ae, IEP, n 为 博 守 中 状态 -行为 
元 组 (s, al, a2) 的 次 数 S] 。 这 会 使 得 学 习 速 率 逐 渐 衰减 ， 直 到 状态 -行为 元 
组 足够 访问 。 在 此 发 现 如 果 删 除 两 个 玩家 同时 占据 同一 单元 格 ， 一 个 或 两 个 玩家 
在 其 目标 单元 格 以 及 无 效 行为 〈 玩 家 不 能 跨越 墙壁 ) 的 状态 ， 则 可 得 到 424 种 
不 同 状 态 -FATWA (s, al, a?) 。 在 500 次 访问 之 后 ， 学 习 速 率 为 a = 
0. 002， 可 忽略 不 计 。 

同时 ， 还 实现 了 一 种 在 线 学 习 算法 。 在 该 算法 中 ， 智 能 体 从 初始 状态 (C, 
3) 开始 每 局 游戏 。 主 要 区 别 在 于 ， 智 能 体 采用 了 一 种 探索 - 开发 学 习 方法 ,其 
中 智能 体 以 概率 -e 选择 随机 行为 并 以 概率 © 选择 纳什 均衡 策略 。 在 学 习 过 程 
中 。 值 的 变化 为 (5) = 二 IEP n 是 在 状态 * 下 的 博弈 次 数 [] 。 这 意味 着 
智能 体 选择 一 个 随机 行为 的 概率 随时 间 增 大 。 对 于 在 线 学 习 智 能 体 ， 这 是 不 希望 
出 现 的 ， 因 为 会 导致 平均 回报 随时 间 减 少 。 对 于 纳什 0 智能 体 ， 必 须 尽 可 能 访 
间 更 多 的 不 同 状态 以 确保 收敛 到 纳什 均衡 策略 。 

观察 网 格 博弈 1 和 2 中 的 两 个 纳什 0 学 习 者 发 现 ， 最 终结 果 与 文献 中 的 结 
完全 一 致 。 每 个 网 格 博弈 测试 20 次 ， 智 能 体会 100% 地 得 到 纳什 均衡 策略 。 另 
外 ， 还 跟踪 了 每 个 智能 体 的 性 能 。 这 些 性 能 是 通过 智能 体 累积 每 一 时 间 步 的 平均 
回报 来 计算 的 。 由 于 可 反映 智能 体 优化 其 策略 的 程度 ， 因 此 智能 体 的 性 能 非常 重 
要 。 为 确保 这 些 值 不 是 仅 反映 一 次 博弈 的 结果 ， 在 此 ， 取 5 次 博弈 的 平均 值 。 这 
也 提供 了 一 个 更 容易 理解 的 平滑 曲线 。 在 图 4-10 ~ 图 4-12 中 ,给 出 了 网 格 博弈 
1 中 智能 体 都 是 纳什 0 学 习 者 时 的 算法 性 能 。 分 别 显示 了 两 个 智能 体 采用 3 种 学 
习 方 法 ， 即 开发 -探索 、 仅 探索 和 仅 开发 时 的 每 一 时 间 步 的 平均 回报 。 
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智能 体 2 是 一 个 探索 -开发 智能 体 








6 
一 寡 能 体 1 采用 探索 -开发 方法 
vn 智能 体 1 采用 探索 方法 
al 智能 体 1 采用 开发 方法 














智能 体 1 的 平均 回报 








-1 fi Ï fi fi 1 1 1 1 1 
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 


博弈 游戏 中 的 时 间 步 x104 
图 4-10 采用 开发 -探索 方法 的 纳什 0 学 习 智能 体 。 转 载 自 文献 [15], 
© P. De Beck - Courcelle 


智能 体 2 是 一 个 探索 智能 











6 
一 一 智能 体 1 采用 探索 -开发 方法 
ww 智能 体 1 采用 探索 方法 

Z 智能 体 1 采 用 开发 方法 


























智能 体 1 的 平均 回报 





| L 
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 





=f 1 1 1 





博弈 游戏 中 的 时 间 步 x104 
图 4-11 仪 采用 探索 方法 的 纳什 学习 智 能 体 。 转 载 自 文献 [15], 
© P. De Beck - Courcelle 
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智能 体 2 是 一 个 开发 智能 体 




















智能 体 1 采 用 探索 -开发 方法 

el woe 智能 体 1 采用 探索 方法 
----- 智能 体 1 采用 开发 方法 

9 = 





智能 体 1 的 平均 回报 











0 02 0.4 06 08 1 12 14 16 18 2 
博弈 游戏 中 的 时 间 步 x104 

K 4-12 (RATATAT O 学 习 智 能 体 。 转 载 自 文献 [15 ] ， 

© P. De Beck - Courcelle 



































纳什 Q AA] IE AA EW EMA BAN AR FE ES PC he 2 PP ES, TK 
算法 在 计算 时 间 方 面 也 非常 苛刻 。 同 时 ， 需 要 在 一 个 单独 的 0 表 中 跟踪 所 有 玩 
家 的 行为 和 回报 。 男 外 还 需要 评估 每 一 时 间 步 的 纳什 均衡 以 更 新 其 0 值 。 在 运 
算 量 方面 ，Lemke - Howson 算法 与 单纯 形 算法 相当 。 这 些 行为 都 需要 较 强 的 处 理 
能 力 ， 并 消耗 大 量 时 间 。 


4.8 朋友 或 敌人 O 学 习 算 法 























对 于 双人 零 和 随机 博弈 ， 极 大 极 小 0 学 习 算法 中 适用 于 玩家 在 博弈 中 学 习 
纳什 均衡 。 对 于 一 般 和 随机 博弈 ，Littman 提出 了 -一 种 朋友 或 敌人 0 学 习 (FFQ) 
算法 以 使 得 学 习 者 将 其 他 玩家 视 为 “朋友 ”或 “敌人 ”10 。FFQ 算法 假设 一 般 
和 随机 博弈 中 的 玩家 可 分 为 两 类 玩家 i 的 朋友 和 玩家 i 的 敌人 。 认 为 玩家 i 的 
朋友 可 共同 合作 以 使 得 玩家 i 的 值 最 大 化 ， 而 玩家 i 的 敌人 却 是 共同 合作 以 使 得 
玩家 i 的 值 最 小 化 0 。 因 此 ， 一 个 玩家 一 般 和 随机 博弈 可 看 作 具有 扩展 行为 
集 的 双 玩 家 零 和 博弈 [10] 。 

玩家 i 的 FFQ 算法 如 算法 4.3 所 示 。 值 得 注意 的 是 ， 对 于 双 团 队 零 和 随机 博 
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弈 ，FFQ 算法 与 极 大 极 小 @ 学 习 算 法 有 所 不 同 。 在 双 团队 零 和 随机 博弈 中 ， 团 
队 领 导 者 控制 团队 玩家 的 行为 并 维持 整个 团队 的 状态 值 。 所 得 到 的 回报 也 是 整个 
团队 的 回报 。 对 于 FFQ 算法 ， 不 存在 发 送 控制 团队 玩家 行为 命令 的 团队 领导 者 。 
FFO 玩家 选择 各 自行 为 并 维持 其 状态 函数 和 平衡 策略 。 为 更 新 行为 ~- 值 函 数 Q, 
(s, Gy, Gy, O15 ty On), FEQ 玩家 需要 观测 每 个 时 间 步 其 朋友 和 对 手 的 
行为 。 

如 果 所 有 状态 和 行为 可 无 限 访问 ，Littman 的 FFQ 算法 可 保证 收敛 到 纳什 平 
衡 。FFQ 算法 的 收敛 性 证 明 详 见 文 献 [10]。 与 极 大 极 小 0 学 习 算 法 和 纳什 0 学 
习 算 法 类 似 ， 由 于 在 算法 4.3 的 每 次 迭代 中 执行 线性 规划 ， 因 此 学 习 速 度 较 低 。 

算法 4.3 ”朋友 或 敌人 @ 学 习 算 法 








初始 化 Vi(s) = 0 和 Qi;(s, ai, ay, 01, “°°, 0n) =0, 其 中 (aj, an) X 
示 玩 家 i 及 其 朋友 的 行为 ，(o ，…，o,,) 表示 其 对 手 的 行为 。 

对 于 每 次 迭代 

基于 探索 - 开发 策略 ， 玩 家 i 在 当前 状态 s 采取 行为 ci。 

在 下 一 状态 s， 玩 家 i 观测 所 得 到 的 回报 7;,， 以 及 朋友 和 对 手 在 状态 s 采取 的 
行为 。 

更 新 Q; (s, aj, a, , Oy, r, Om): 


Q;(s, ai, Ano O15, 0t; op) -a) Q; (s, a1, ‘Gn, O15 "5 On, ) +a 
Lr; + V;(s’) ] 

AP, a 为 学 习 速 率 ; y 为 折扣 因数 。 
利用 线性 规划 更 新 V; Cs) : 

Vi(s) = max min 

T (857) ,se Tp (84) O17 Ong € OLX XO, ag, dy, Ay XA, 
Q;(s, Q1 yAn, 01s" ,On ) T(S, a) Ta s, an) (4. 58) 
结 


4.9 无 限 梯度 上 升 算 法 


























由 博弈 理论 文献 可 知 ， 在 双人 和 迭代 博弈 中 ， 采 用 梯度 上 升 算法 计算 而 得 的 策 
WDC CB, Singh 等 人 证 明 两 个 玩家 的 平均 回报 总 是 收敛 到 一 些 纳什 均衡 的 预 
期 回报 ， 即 使 其 策略 并 不 收敛 。 设 双人 双 行 为 一 般 和 博弈 由 以 下 矩阵 定义 : 
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R= e a 和 C= in | 
Toi, 122 C21 “22 
式 中 ,RR 是 行 玩家 (玩家 1) 的 回报 ; C 是 列 玩 家 (玩家 2) 的 回报 。 
假设 玩家 1 采取 行为 i 且 玩 家 2 采取 行动 j。 因 此 ， 玩 家 1 和 玩家 2 的 回报 分 
别 为 Rj 和 Cjo 
设 玩 家 1 和 玩家 2 采用 可 随机 选择 行为 的 混合 策略 。 假 设 ae [0, 1] 为 玩 
家 1 选择 行为 1 的 概率 , 而 (1 -a) 为 玩家 1 选择 行为 2 的 概率 。 男 外 ,假设 
BelO, 1] 为 玩家 2 选择 行为 1 的 概率 ，(1 -B) 是 玩家 2 选择 行为 2 的 概率 。 
因此 ， 对 于 策略 对 (a,，B)， 玩 家 1 的 预期 回报 是 
ViCa, B) = mo) +r (C -oa)(l-B)) +rod -B)) +ra((l - @)B) 
(4.59) 




















玩家 2 的 预期 回报 是 
V.(a,B) = cu(aB) + e((1 -a@) (1 -B)) +cw(a(l -B)) +en((l - @)£) 
(4. 60) 
通过 计算 玩家 预期 回报 相对 于 其 混合 策略 的 偏 导数 可 估计 玩家 策略 改变 的 


影响 : 





aV, (a, B) 


Ja = Bu - (rx - 112) (4. 61) 
aV, (a, , 
EP ai- (en ea) (4. 62) 


其 中 
u = (ru +r2) ~- (ra +712) 和 wu = (ey + ey) = (c1 + c12) 
梯度 上 升 算 法 中 ， 每 个 玩家 在 每 一 时 间 步 的 当前 策略 可 以 某 一 步 长 7 在 其 
当前 梯度 方向 上 进行 调节 ， 以 使 得 预期 回报 最 大 化 : 
ny eh tes Be) 





Q; = a + 7 (4. 63) 
OV. , Py 
Brai = Br rq A (4. 64) 








步 长 了 通常 在 0 <n <<1 的 范围 内 。 显 然 ， 假定 每 个 玩家 都 已 知 对 手 策 略 。 
Singh AWEH, ERREK (limo) 情况 下 ， 智 能 体 ， 其 平均 回报 或 两 者 
都 将 收敛 于 纳什 均衡 。 然 而 ， 由 于 以 下 两 个 原因 而 无 法 应 用 于 大 量 的 实际 问题 ， 
因此 IGA (无 限 梯度 上 升 ) 算法 是 不 切实 际 的 : 

1) 假设 玩家 完全 已 知 对 手 策略 ; 

2) IGA 算法 专用 于 双人 双 行 为 迭代 一 般 和 博弈 。 对 于 多 人 多 行为 一 般 和 随 
机 博弈 ， 算 法 扩展 并 不 容易 。 
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4.10 PHC 算法 





JELRE (PHC) 算法 是 一 种 适用 于 混合 策略 的 简单 实用 算法 。 该 算法 首 
先 由 Bowling 和 Veloso (2002) 提出 。PHC 算法 不 需要 很 多 信息 ， 既 无 需 已 知 玩 
家 最 近 执 行 的 行为 也 无 需 已 知 其 对 手 的 当前 策略 。 另 外 ，PHC 算法 是 对 单 智能 
体 Q 学 习 算 法 的 简单 改进 。 在 混合 策略 的 空间 中 是 通过 PHC 算法 执行 朴 山 过 程 。 
PHC 算法 由 两 部 分 组 成 : 强化 学 习 是 第 一 部 分 ， 作 为 0 学 习 算法 维持 状态 中 特 
定 行 为 的 值 ;博弈 理论 是 第 二 部 分 ， 保 持 每 个 系统 状态 中 的 当前 策略 。 

选择 最 大 行为 值 的 概率 以 一 个 较 小 的 学 习 速 率 5s (0, 1] 逐 步 增 大 以 不 断 改 
进 策略 。5 =1 时 ， 该 算法 等 效 于 0 学 习 算 法 ， 在 执行 最 大 值 行 为 的 同时 策略 以 
概率 1 趋向 于 贪 禁 策 略 。 当 其 他 玩家 执行 固定 策略 时 ，PHSC 算法 是 合理 的 且 收 
敛 于 最 优 解 。 然 而 如 果 其 他 玩家 正在 学 习 ， 则 PHC 算法 可 能 不 会 收敛 到 固定 策 
略 ， 尽 管 其 平均 回报 将 收敛 到 纳什 均衡 的 回报 。PHC 算法 如 算法 4.4 所 示 。 


算法 4.4 PHC 算法 


























1 
|a; 1° 


l 


1. 初始 化 Q; Cs, a;i) 0 以 及 Ti(s, a;)— 选择 学 习 速 率 a、6 和 折扣 因数 7 


2 每 次 迭代 中 

3. 基于 混合 探索 - 开发 策略 ， 在 当前 状态 ;选择 a, 行为 

4. 采取 行为 a。， 并 观测 回报 r; 和 下 一 状态 s” 

5. 更 新 Q;(s, a) 
人 

式 中 ,a' 是 玩家 i 在 下 一 状态 ,的 行为 :a, 是 玩家 i 在 状态 * 采取 的 行为 

6. 更 新 7;(s, a;) 











Ti(s, oa) = Ti(s, oa) +A, (Va; € A;) (4. 66 ) 
all > 0 如 果 a, al arg max,<4,0;(5,4;) 
A. = | (4. 67) 
“o E Oe 其 他 
aA a; RI 
Ôa = min(7;(s, a;), -2 ) (4.68) 
na |4,|-1 


7 2a 
WoLF -PHC (快速 取胜 或 学 习 策略 疏 坡 ) 算法 是 PHC 算法 的 扩展 [21 。 该 算 
法 采用 WoLF 机 制 ， 使 得 PHC 算法 在 学 习 过 程 中 收敛 到 纳什 均衡 。 该 算法 具有 
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两 种 不 同 的 学 习 速 率 : 算法 获胜 时 为 6,， 失 败 时 为 8。 平均 策略 和 当前 战略 之 
间 的 差异 作为 判定 算法 胜利 或 失败 的 标准 。 学 习 速 率 8 大 于 56。 因此 ， 智 能 体 
失败 时 ， 学 习 速 率 比 获胜 时 更 大 。 这 使 得 智能 体 在 比 预期 回报 较 差 时 能 够 快速 
适应 其 他 智能 体 的 策略 变化 ， 而 在 比 预期 回报 更 好 时 谨慎 学 习 。 这 也 给 其 他 智 
能 体 适 应 该 智能 体 策 略 变化 的 时 间 。 由 于 能 够 使 得 智能 体 收敛 到 某 个 纳什 均衡 ， 
WoLF - PHC 算法 体现 了 其 收敛 特性 。 该 算法 也 是 一 种 理性 学 习 算 法 ,这 是 因 
为 可 使 得 智能 体 在 其 对 手 采用 固定 策略 时 收敛 到 最 优 策略 。 这 些 特性 使 得 
WoLF - PHC 算法 广泛 应 用 于 各 种 随机 博弈 2 - 中。 一 个 学 习 智 能 体 j 的 递归 
Q 学 习 由 下 式 给 出 : 
Qi Cs, a) =(1- a)Qi(s, a) +a(r + y maxQi(s", a’)) (4. 69 ) 
算法 4 5 描述 了 学 习 智能 体 7 的 WoLF -PHC 算法 ， 且 该 算法 通过 以 下 方程 
更 新 智能 体 7 的 策略 : 






































wi .,(s,a) 三 T (s, a) +A,, (4. 70) 
其 中 
A | - 6,, 如 果 a ¥ arg max Qi (s, a’) 
~ Za tava! 其 他 
as : 6 
Oy = min(ai(s, a) T= 
6 = fi 如 果 Yor, (s, a')@ a(s, a') > Zy Ti (s, a') OCs, a’) 
ô 其 他 
mals, a") = 而 (ao) + ms, a!) -Hs, a')) Val eh 
Cia (s) ` 


Cals) = C,(s) +1 
在 算法 4.5 中 给 出 了 玩家 i 的 WoLF - PHC 算法 。 


4.11 WoLF -PHC 算法 


算法 4.5 WoLF -PHC 学 习 算 法 





初始 化 O;(s,a,)<0, mls, a) [| 以及 C(s)*0。 选 择 学 习 速 率 a、6 以 
及 折扣 因数 y 
每 次 迭代 中 





基于 混合 探索 - 开发 策略 ， 在 当前 状态 s 选择 行为 a。 
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采取 行为 a. ， 并 观测 回报 7; 和 下 一 状态 s' 
更 新 Q;(s, a.) 

Qi(s, a,) = Qi(s, a,) + alr; + ymaxQ(s’, a’) = Q(s, a,) | (4.71) 
式 中 ，a' 是 玩家 i 在 下 一 状态 s' 的 行为 ; a。 是 玩家 i 在 状态 s 采取 的 行为 
更 新 平均 策略 r; 的 估计 

















C(s) = C(s) +1 (4. 72) 
TCS, a) = mis ai) + Bley mis ai) = TCs, @)) (Va, € A;) (4.73) 
RP, Cls) RIIAS s 的 访问 次 数 。 
更 新 Ti(s, a;) 
Ti(s, a;) = Ti(s, a;) + A (Va; € 4.;) (4.74) 
其 中 
-6 如 果 a, al arg max,<4.0;(s,4;) 
A, = (4. 75) 
Irs, 其 他 
Be 二 (4. 76) 
sa, 7 Mn i\ 5,4; 14;1 -1 $ 


ice [> 如 果 È e4 Tils,0i) Qi(s,0i) > È ,Ti(s,0i) Qi(s,0i) 
ô ”其 他 
bt: 


ZH 


与 前 面 提 到 的 学 习 算法 不 同 ，WoLF - PHC 算法 无 需 观 测 其 他 玩家 的 策略 和 
行为 。 因 此 ， 与 其 他 3 种 学 习 算法 相 比 ，WoLF - PHC 算法 所 需 的 来 自 环 境 的 信 
息 较 少 。 由 于 WoLF - PHC 算法 是 基于 PHC 方法 ， 因 此 在 该 算法 中 不 需要 执行 
线性 规划 或 二 次 规划 。 另 外 , 由 于 WoLF - PHC 算法 是 一 种 实用 算法 ， 因 此 没有 
文献 [2] 中 提供 的 收敛 证 明 。 实 际 上 , 文献 [2] 中 的 仿真 结果 表明 ， 通 过 根 
据 和 矩阵 博 守 和 随机 博弈 中 的 不 同 示 例 来 正确 选择 学 习 速 率 可 保证 玩家 策略 收敛 。 









































4.12 网 格 世 界 中 的 疆土 防御 问题 























疆土 防御 博弈 首先 由 Isaacs HEM! 。 在 博弈 中 ， 入 侵 者 试图 尽 可 能 地 接近 
领土 ， 而 防御 者 试图 拦截 并 保持 入 侵 者 尽 可 能 地 远离 领土 。 该 博弈 的 实际 应 用 可 
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以 是 自主 移动 机 器 人 的 安全 监控 任务 。 自 从 该 博弈 提出 以 后 ， 在 这 一 领域 已 有 一 
些 研究 成 果 i”20] 。 在 这 些 研究 工作 中 ， 防 御 者 试图 采用 模糊 控制 器 来 定位 入 侵 
者 的 位 置 !21 或 应 用 模糊 推理 策略 来 捕获 入 侵 者 [2 。 然 而 ， 所 有 这 些 研究 工作 
都 是 假定 防御 者 已 知 其 最 优 策略 以 及 和 人 侵 者 的 策略 ， 而 玩家 并 没有 采用 学 习 方 
法 。 在 本 书 的 工作 中 ， 假 定 防 御 者 或 入 侵 者 都 没有 其 最 优 策略 和 对 手 策 略 的 先 验 
知识 。 在 此 ， 对 玩家 采用 学 习 算 法 ， 以 使 得 防御 者 或 入 侵 者 在 经 过 学 习 后 获得 各 
自 的 最 优 行为 。 

文献 [3] 中 的 疆土 防御 问题 是 一 种 差分 博弈 问题 ， 其 中 ,玩家 的 动态 方程 
通常 是 微分 方程 。 在 本 书 的 工作 中 ， 将 研究 玩家 在 未 知 最 优 策略 时 如 何 学 习 。 因 
此 ， 上 述 问题 就 成 为 多 智能 体系 统 中 的 多 智能 体 学 习 问 题 。 现 已 有 许多 关于 多 智 
能 体系 统 的 论文 [221 。 在 多 智能 体 学 习 的 应 用 中 ， 对 网 格 世 界 中 的 捕食 者 - 猫 
物 问 题 或 追捕 问题 已 进行 了 深入 研究 [>3] 。 为 更 好 地 理解 博弈 游戏 中 两 个 玩家 
的 学 习 过 程 ， 在 此 创建 了 一 个 目前 尚未 研究 过 的 疆土 防御 网 格 博弈 游戏 。 

大 多 数 多 智能 体 学 习 算 法 都 是 基于 MARL 方法 [2] 。 根 据 文献 [3] 中 博弈 
的 定义 ， 所 建立 的 网 格 博弈 是 一 个 双人 零 和 随机 博弈 。 极 大 极 小 0 学 习 算法 [1 
非常 适合 于 求解 该 问题 。 然 而 ， 如 果 玩 家 不 是 总 采取 对 对 手 最 具 破 坏 性 的 行为 ， 
则 对 手 采用 理性 学 习 算 法 会 比 极 大 极 小 0 学 习 算 法 具有 更 好 的 性 能 。 在 此 所 
采用 的 理性 学 习 算法 就 是 WoLF - PHC 学 习 算 法 。 本 节 中 ， 进 行 仿真 运行 ， 并 比 
较 极 大 极 小 0 学 习 算 法 和 WoLF - PHC 算法 的 学 习性 能 。 

本 节 中 的 疆土 防御 问题 是 文献 [3] 中 疆土 防御 博弈 的 网 格 版 ， 游 戏 定义 如 下 : 

。 取 一 个 6 x6 网 格 作为 博弈 场地 ， 如 图 4-13 所 示 。 入 侵 者 从 左上 角 开 始 ， 
并 试图 在 被 捕获 之 前 到 达 领 土 。 领 土 由 图 4-13 中 记 为 了 的 单元 格 表示 。 防 御 者 
从 底部 开始 ， 试 图 拦截 入 侵 者 。 玩 家 的 初始 位 置 不 是 固定 的 ， 可 随机 选择 。 

e 两 个 玩家 都 可 以 向 上 、 向 下 、 向 左 或 向 右 移动 。 在 每 个 时 间 步 ， 两 个 玩 
家 同时 采取 行为 ， 并 移动 到 相 邻 的 单元 格 。 如 果 所 选择 的 行为 会 使 得 玩家 超出 博 
弈 场地 ， 则 玩家 待 在 当前 位 置 。 

。 防御 者 为 中 心 的 9 个 灰色 单元 格 ， 如 图 4-13b 所 示 ， 是 入 侵 者 将 被 捕获 
的 区 域 。 入 侵 者 成 功 入 侵 定义 为 人 侵 者 在 捕获 之 前 到 达 领 土 或 在 领土 上 被 捕获 。 
当 防 御 者 捕获 人 侵 者 或 人 侵 者 成 功 人 侵 时 游戏 结束 。 然 后 ， 在 玩家 随机 选择 初始 
位 置 后 ， 游 戏 重新 开始 。 

。 人 和 人 侵 者 的 目标 是 在 不 被 拦截 的 情况 下 到 达 领 土 ， 或 不 可 避免 地 被 捕获 时 ， 尽 
可 能 地 接近 领土 。 相 反 ， 防 御 者 的 目的 是 在 尽 可 能 远离 领土 的 地 方 拦 截 人 侵 者 。 

终止 时 刻 定义 为 人 侵 者 到 达 领 土 的 时 刻 或 被 防御 者 拦截 的 时 刻 ， 回 报 定义 为 
终止 时 刻 和 人 侵 者 和 领土 之 间 的 距离 . 

回报 = lxi (ty) -xrl tly Ct) -yrl (4. 77) 
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b) 


图 4-13 网 格 世 界 中 的 疆土 防御 问题 。 转 载 自 文献 [5], OX. Lu 
a) 博弈 游戏 开始 时 玩家 的 初始 位 置 b) 博弈 游戏 结束 时 玩家 的 最 终 位 置 








RP, Cay (te), (te) ) 为 在 终止 时 刻 t 的 人 侵 者 位 置 ， (wr，yr) 为 领土 的 位 
Es 
根据 游戏 定义 ， 入 侵 者 试图 最 小 化 回报 ， 而 防御 者 试图 最 大 化 回报 。 


4.12.1 仿真 和 结果 


在 此 ， 采 用 4.3 节 介 绍 的 极 大 极 小 0 学 习 算 法 和 4. 11 节 中 介绍 的 WoLF - 
PHC 算法 来 仿真 执行 疆土 防御 网 格 博弈 游戏 。 首 先 通过 一 个 简单 的 2 x2 网 格 博 
弈 游戏 来 探讨 混合 策略 、 合 理性 和 收敛 性 问题 。 接 下 来 ， 将 博弈 场地 扩大 到 6 x 
6 网 格 ， 并 检验 在 该 较 大 网 格 下 学 习 算法 的 性 能 。 

对 于 每 个 网 格 博弈 游戏 设置 两 种 仿真 。 在 第 一 次 仿真 中 ， 博 弈 游戏 中 的 玩家 
采用 同一 学 习 算 法 相互 对 抗 。 检 验算 法 是 否 满足 收敛 性 ， 如 图 4-14 所 示 。 在 第 
二 次 仿真 中 ， 一 个 玩家 的 策略 固定 ， 而 男 一 个 玩家 学 习 针 对 对 手 的 最 优 策略 。 在 
此 采用 极 大 极 小 0 学习 算法 和 WoLF -PHC 算法 来 单独 训练 学 习 者 ， 并 比较 极 大 
极 小 0 学 习 算 法 训练 的 玩家 和 WoLF - PHC 算法 训练 的 玩家 的 性 能 。 根 据 表 4.7 
的 合理 性 ， 期 望 在 第 二 次 仿真 中 WoLF -PHC 算法 训练 的 防御 者 性 能 要 优 于 极 大 




























































































极 小 Q 学 习 算 法 所 训练 的 。 
表 4.7 多 智能 体 强化 学 习 算法 比较 
算法 适用 性 合理 性 收敛 性 
极 大 极 小 0 学 习 算法 零 和 随机 博弈 T 是 
纳什 Q 学 习 算法 特定 一 般 和 随机 博弈 T 是 
朋友 或 敌人 Q 学 习 算 法 特定 一 般 和 随机 博弈 否 是 
WoLF -PHC 一 般 和 随机 博弈 是 T 
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图 4-14 2x2 网 格 博弈 游戏 第 一 次 仿真 中 采用 极 大 极 小 0 学 习 算 法 在 状 
aS si 的 玩家 策略 ， 转 载 自 文献 [5], OX. Lu 

a) 防御 者 策略 rp (si, Gen) 〈 实 线 ) Alay (si, au) 虚线) 

b) 入侵 者 策略 m (s1, Odom) (SEB) 和 Ti (si, Ong) (虚线 ) 

















现在 将 WoLF - PHC 算法 应 用 于 2 x2 网 格 博弈 。 根 据 文献 [2] 中 的 参数 设 
置 ， 设 学 习 速 率 a 为 1/(10 +4/10000) , 6, 4 1/(10 +t/2), 6 为 3/(10 +t/2), 
其 中 , t 是 当前 迭代 次 数 。 和 迭代 次 数 表 示 在 算法 4.5 中 重复 步骤 2 的 次 数 。 图 
4-15 中 的 结果 表明 ， 经 过 15000 次 授 代 后 ， 玩 家 的 策略 收敛 于 接近 纳什 均衡 。 

在 第 二 次 仿真 中 ， 入 侵 者 在 状态 ;对 防御 者 采取 固定 策略 ， 如 图 4-2a 所 示 。 
入 侵 者 的 固定 策略 是 以 概率 0.8 向 右 移动 ， 并 以 概率 0. 2 向 下 移动 。 然 后 ， 防 御 
者 对 入 侵 者 的 最 优 策略 是 一 直 向 上 移动 。 将 两 种 算法 应 用 于 博弈 游戏 ， 并 检验 防 
御 者 的 学 习性 能 。 图 4- 16a 表明 ， 采 用 极 大 极 小 0 学 习 算 法 ， 防 御 者 的 策略 不 能 
收敛 到 其 最 优 策略 ， 而 图 4- 16b 表明 ，WoLF - PHC 算法 能 够 保证 收敛 到 防御 者 
针对 入 侵 者 的 最 优 策略 。 
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二 二 1 | 
0 5000 10000 15000 
和 迭代 次 数 
a) 














0 5000 10000 15000 
和 迭代 次 数 
b) 
图 4-15 2 x2 网 格 博弈 游戏 第 一 次 仿真 中 采用 WoLF - PHC 算法 在 状态 
s 的 玩家 策略 ， 转 载 自 文献 [5], OX. Lu 
a) 防御 者 策略 rn (51, an) (KA) 和 mp (s1, ap) CER) b) MZK 
策略 mz (si, Oam) (SBR) Alay (si, Ong) (虚线 ) 

















在 2 x2 网 格 博弈 中 ， 第 一 次 仿真 验证 了 极 大 极 小 Q 学 习 算法 和 WoLF - 
PHC 算法 的 收敛 性 。 根 据 表 4.7，WoLF - PHC 算法 没有 收敛 证 明 。 但 图 4-15 中 
的 仿真 结果 表明 ， 当 两 个 玩家 均 采 用 WoLF - PHC 算法 时 ， 玩 家 的 策略 可 收敛 到 
纳什 均衡 。 在 合理 性 判别 准则 下 ， 极 大 极 小 O 算法 未 能 收敛 到 图 4-16a 中 防御 者 
的 最 优 策略 ， 而 WoLF -PHC 算法 在 经 过 学 习 后 可 收敛 到 防御 者 的 最 优 策 略 。 

现在 将 2 x2 网 格 博弈 改 为 6 x6 网 格 博弈 。 要 守护 的 领土 由 位 于 图 4-17 中 
(5, 5) 处 的 单元 格 表示 。 在 仿真 过 程 中 ， 领 土 的 位 置 保持 不 变 。 入 侵 者 和 防御 
者 的 初始 位 置 如 图 4-17a 所 示 。 每 个 玩家 的 行为 个 数 从 2 x2 网 格 博弈 中 的 2 变 
为 6x6 网 格 博弈 中 的 4。 两 个 玩家 都 可 以 向 上 、 向 下 、 向 左 或 向 右 移动 。 图 
4-17a 中 的 灰色 单元 格 是 防御 者 在 人 侵 者 之 前 可 以 到 达 的 区 域 。 因 此 ， 如 果 两 个 
玩家 都 采用 各 自 均 衡 策 略 ， 则 如 图 4-17b 所 示 ， 人 和 人 侵 者 可 移动 到 尽 可 能 靠近 领 十 
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图 4-16 2 x2 网 格 博弈 游戏 第 二 次 仿真 中 在 状态 s 的 防御 者 策略 ， 转 
载 自 文献 [5], OX. Lu 
a) 针对 入 侵 者 的 固定 策略 ， 防 御 者 在 状态 s 的 极 大 极 小 0 学 习 算 法 策略 。 实 线 : 防 
御 者 向 上 移动 的 概率 ; 虚线 : 防御 者 向 左 移动 的 概率 b) 针对 入 侵 者 的 固定 策略 ， 防 
御 者 在 状态 ;| 的 WoLF -PHC 算法 策略 。 实 线 ， 防 御 者 向 上 移动 的 概率 ; 虚线 : 防御 
者 向 左 移动 的 概率 


的 两 个 单元 格 的 距离 。 与 表明 学 习 过 程 中 玩家 策略 收敛 性 的 之 前 2 x2 网 格 博弈 
不 同 ， 在 本 次 博弈 游戏 中 ， 是 表明 玩家 在 学 习 过 程 中 的 平均 学 习性 能 。 在 此 ， 增 
加 一 个 测试 阶段 来 评估 每 100 次 迭代 后 的 学 习 策略 。 和 迭代 次 数 是 指 在 算法 4. 1 或 
算法 4.5 中 重复 步骤 2 的 次 数 。 测 试 阶段 中 仿真 运行 1000 次 博弈 游戏 。 在 每 次 
运行 中 ， 学 习 的 玩家 从 图 4-17a 所 示 的 初始 位 置 开 始 并 在 终止 时 刻 结束 。 每 次 运 
行 后 ， 得 到 终止 时 刻 人 侵 者 和 领土 的 最 终 距 离 。 然 后 计算 1000 次 运行 的 平均 最 
终 距 离 。 每 100 次 迭代 后 ， 记 录 测 试 阶段 的 结果 ， 即 1000 次 运行 的 平均 最 终 
距离 。 



























































96 多 智能 体 机 器 学 习 : 强化 学 习 方法 











b) 


图 4-17 6x6 网 格 博弈 游戏 ， 转 载 自 文献 [5] ，@X. Lu 
a) 玩家 的 初始 位 置 b) 玩家 的 某 个 终止 位 置 





在 此 ， 采 用 与 极 大 极 小 0 算法 时 2 x2 网 格 博弈 的 相同 参数 设置 。 在 第 一 次 
仿真 中 ， 通 过 对 两 个 玩家 采用 同一 学 习 算 法 来 测试 收敛 性 。 图 4- 18a 给 出 了 两 个 
玩家 均 采 用 极 大 极 小 0 学 习 算 法 时 的 学 习性 能 。 在 图 4- 18a P, x WERE 
数 ，y 轴 表 示 每 100 次 迭代 后 测试 阶段 的 结果 (1000 次 运行 的 平均 最 终 距离 ) 。 
由 图 4- 18a 中 的 结果 可 知 ， 经 过 50000 次 迭代 后 ， 人 和 人 侵 者 和 领土 之 间 的 平均 最 终 
距离 收敛 到 2。 如 图 4-17b 所 示 ， 在 两 个 玩家 均 采 用 各 自 纳什 均衡 策略 时 ， 上 距离 
2 是 和 人 侵 者 和 领土 之 间 的 最 终 距 离 。 因 此 ， 图 4- 18a 表明 两 个 玩家 的 学 习 策 略 收 
敛 于 各 自 纳什 均衡 策略 。 然 后 ， 采 用 WoLF - PHC 算法 再 次 进行 仿真 。 设 学 习 速 


Je 
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率 aw 为 1Z(4 + 1/50)、6%, 为 1 A(1 + + 75000) IKS H4/(1 + t/ 5000), 
Hj Bi£ (tie 200000 次 。 图 4- 18b 中 的 结果 表明 ， 在 经 过 学 习 后 平均 最 终 距离 
收敛 于 距离 2。 

在 第 二 次 仿真 中 ， 入 侵 者 的 策略 固定 为 随机 行走 策略 ， 这 意味 着 入 侵 者 可 以 
相等 概率 向 上 、 向 下 、 向 左 或 向 右 移动 。 类 似 于 第 一 次 仿真 ， 在 每 100 次 迭代 之 
后 根据 测试 阶段 的 结果 来 检验 算法 的 学 习性 能 。 在 测试 阶段 ， 运 行 博弈 游戏 
1000 次 ， 并 计算 1000 次 运行 中 每 次 运行 终止 时 刻 和 人 侵 者 和 领土 之 间 的 最 终 距离 
的 平均 值 。 


5 T T T T 























平均 距离 
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迭代 次 数 
b) 
图 4-18 6x6 网 格 博弈 游戏 的 第 一 次 仿真 结果 ， 转 载 自 文献 [5], OX. Lu 
a) 防御 者 采用 极 大 极 小 0 学 习 算 法 策略 与 人 侵 者 采用 极 大 极 小 0 学 习 算 法 策略 的 对 抗 结果 
b) 防御 者 采用 WoLF - PHC 算法 策略 与 人 侵 者 采用 WoLF - PHC 算法 策略 的 对 抗 结果 





























98 多 智能 体 机 器 学 习 : 强化 学 习 方法 














测试 并 比较 在 博弈 游戏 中 防御 者 采用 上 述 两 种 算法 的 学 习性 能 。 测 试 结 果 如 
图 4-19a 和 b 所 示 。 采 用 WoLF - PHC 算法 ， 防 御 者 可 在 比 采用 极 大 极 小 0 学 习 
算法 (距离 5.9) 更 加 远离 领土 (距离 6.6) 的 位 置 拦 截 入 侵 者 。 因 此 ， 根 据 表 
4.7 中 的 合理 性 标准 ， 与 极 大 极 小 Q 学 习 算 法 的 防御 者 相 比 ，WoLF - PHC 算法 
的 防御 者 在 对 抗 执行 随机 行走 策略 的 入 侵 者 时 可 获得 更 好 的 性 能 。 
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b) 
到 4-19 6 x6 网 格 博弈 游戏 的 第 二 次 仿真 结果 ， 转 载 自 文献 [5], OX. Lu 
a) 防御 者 采用 极 大 极 小 Q 学 习 算法 策略 与 入 侵 者 采用 固定 策略 的 对 抗 结果 b) 防御 者 
采用 WoLF -PHC 算法 策略 与 人 侵 者 采用 固定 策略 的 对 抗 结果 























4.13 LR_iI 滞 后 锚 算 法 在 随机 博弈 中 的 扩展 














在 矩阵 博弈 的 基础 上 设计 了 本 书 所 提出 的 LAR_I 清 后 锚 算 法 。 本 节 将 该 算法 
扩展 到 更 一 般 的 随机 博弈 。 受 文献 [2] 中 WoLF - PHC 算法 的 启发 ， 基 于 式 
(3.59) 中 LR_I 清 后 锚 算 法 ， 设 计 了 一 种 用 于 随机 博弈 的 实用 的 分 散 式 学 习 算 
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法 。 该 实用 算法 如 算法 4. 6 所 示 。 
算法 4.6 玩家 i 的 实用 ELR_1 滞 后 锚 算 法 
1 


1. 初始 化 04s,a)<0 以 及 人 选择 学 习 速 率 w、7 和 折扣 因 





By 
2. 每 次 迭代 

3. 基于 混合 探索 - 开发 策略 ， 在 当前 状态 s 选择 行为 a。 
4. 

5. 





采取 行为 a, ， 并 观测 回报 > 和 下 一 状态 o’ 
更 新 0;(s,a) 
Qi(s,0.) =Q;(s,a,) +a[r; +y maxQ;(s',a') ~ Qi(s,0.)] 
更 新 玩家 的 策略 7,(s，* ) 
7;(s,a,) =7;(s,a,) +Q;(s,a,)[1-7,(s,a,) ] +o mi(s,a.) -mi(s,a,)] 


a 


m;(s,a,) =7;(s,a,) +NUT;(s,a,) -Ti(syao)] 
7;(s,a;) =7;(s,a;) —1Q;(s,a,)7;(s,a)) +L Ti(s,a)) -Ti(s ao) 
m;(s,a;) =7;(s,a;) +9 7;(s,a;) —7;(s,a;) ] 
(对 于 所 有 a;#a,) 
7. 结 
(Ols, a) 为 行为 - 值 函 数 ，7,(s，a,) 是 玩家 i 在 状态 s 采取 行为 a; 的 概 
率 ，a. 是 玩家 i 在 状态 s 采取 的 当前 行为 ) 























现在 将 算法 4.6 应 用 于 随机 博弈 以 测试 其 性 能 。 在 此 仿真 的 随机 博弈 是 由 
Hu 和 Wellman [8 提出 的 一 种 一 般 和 网 格 惠 弈 ， 该 博弈 已 在 4.4 节 中 进行 了 讨 
论 。 已 知 该 博弈 游戏 在 3 x3 网 格 场地 下 运行 ， 如 图 4- 20a 所 示 。 现 有 两 个 玩家 ， 
玩家 1 的 初始 位 置 位 于 左下 角 ， 玩 家 2 的 初始 位 置 位 于 右 下 角 。 两 个 玩家 都 试图 
到 达 图 4-20a 所 示 记 为 “G” 的 目标 。 每 个 玩家 都 有 4 种 可 能 行为 ， 即 向 上 、 问 
下 、 疝 左 或 向 右 移 动 ， 除 非 玩家 在 网 格 的 边 侧 。 在 Hu 和 Wellman 的 博弈 中 ， 忽 
略 玩家 移动 到 墙 上 的 行为 。 由 于 采用 与 Hu 和 Wellman 完全 相同 的 博弈 ， 因 此 撞 
上 墙 的 可 能 行为 已 从 玩家 的 行为 集中 删除 。 例 如 ， 如 果 玩 家 位 于 左下 角 ， 则 其 可 
行 行为 是 向 上 或 向 右 移 动 。 如 果 两 个 玩家 同时 移动 到 同一 单元 格 ， 将 返回 到 各 自 
初始 位 置 。 图 4-20a 中 的 两 条 粗 线 表示 两 个 障碍 ， 从 而 使 得 玩家 以 概率 0.5 穿 过 
障碍 。 例 如 ， 如 果 玩 家 1 试图 从 左下 角 向 上 移动 ， 则 其 保持 不 动 或 以 概率 0.5 移 
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图 4-20 Hu 和 Wellman 网 格 博弈 。 转 载 自 文献 [24], © M. Awheda 和 Schwartz, H. M 
a) 网 格 博弈 ”pb) 纳什 均衡 路 径 1 c) 纳什 均衡 路 径 2 


动 到 上 部 单元 格 。 当 任 一 玩家 到 达 目 标 时 博弈 结束 。 为 在 最 少时 间 步 内 到 达 目 
标 ， 玩 家 需 避 开 障 碍 并 首先 移动 到 底部 中 心 单 元 格 。 由 于 两 个 玩家 不 能 同时 移动 
到 底部 中 心 单 元 格 ， 所 以 玩家 需要 相互 合作 ， 从 而 使 得 其 中 一 个 玩家 必须 承担 风 
险 并 向 上 移动 。 该 博弈 游戏 中 玩家 1 (i = 1, 2) 的 回报 函数 定义 为 
100 ”玩家 i 到达 目标 
r; = 1 -1 两 个 玩家 移动 到 同一 单元 格 (不 包括 目标 ) (4.78) 
0 ”其 他 
根据 文献 [8] ， 该 网 格 博弈 具有 如 图 4-20b 和 e 所 示 的 两 条 纳什 均衡 路 径 。 
从 初始 状态 开始 ， 玩 家 的 纳什 均衡 策略 是 ， 玩 家 1 向 上 移动 、 玩 家 2 向 左 移动 ， 
或 玩家 1 向 右 移动 、 玩 家 2 向 上 移动 。 
WFR n = 0.001、 学 习 速 率 a = 0.001、 折 扣 因 数 y = 0.9。 选 择 混合 探 
R -开发 策略 使 得 玩家 以 概率 0. 05 选择 随机 行为 并 以 概率 0. 95 选择 贪 焚 行 
为 。 仿 真 运行 10000 次 。 每 次 博弈 都 是 玩家 从 初始 位 置 开 始 且 当 任 一 玩家 到 达 
目标 时 结束 。 图 4-21 给 出 了 两 个 玩家 学 习 轨 迹 的 结果 。 在 此 ,pj 定义 为 玩家 1 
向 上 移动 的 概率 ，gi 为 玩家 2 从 其 初始 位 置 向 上 移动 的 概率 。 图 4-21 中 的 结 
果 表 明 两 个 玩家 在 初始 状态 的 策略 收敛 于 两 个 纳什 均衡 策略 之 一 (玩家 1 向 右 
移动 ， 玩 家 2 向 上 移动 ) 。 因 此 ， 所 提出 的 Ln _; 锚 滞 后 实用 算法 可 应 用 于 一 般 
和 随机 博弈 。 
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(p1(0),91(0)) 


qi/( 阮 家 2 向 上 移动 的 概率 ) 











0 01 02 03 04 05 06 07 08 09 1 
pi/( 玩 家 1 向 上 移动 的 概率 ) 

到 4-21 网 格 博弈 游戏 中 在 初始 状态 玩家 策略 的 学 习 轨 迹 。 

转载 自 文献 [5], OX. Lu 

















4.14 EMA Q 学 习 算法 


旨 数 移动 平均 (EMA) 算法 是 一 种 无 模型 策略 佑 计 方 法 。 这 属于 用 于 分 析 
金融 和 技术 分 析 中 时 间 序 列 数据 的 一 种 统计 方法 。 通 常 ，EMA 算法 会 对 最 近 观 
测 值 分 配 更 大 的 权重 5] 。 在 文献 【26] 中 ，EMA 估计 方法 通过 超 0 学 习 算法 
来 估计 对 手 的 策略 。 在 文献 [25] F, IGA 智能 体 利用 该 方法 用 于 估计 其 对 手 
的 策略 。 用 于 估计 智能 体 对 手 策略 的 EMA 估计 器 可 由 下 列 方程 描述 [526] ; 


mhl) = (1 nn) mi(s) +9 ula) (4.79) 


式 中 ，7 -1(s) 是 对 手 的 策略 ; n 为 一 个 较 小 的 恒定 步 长 (0 <n <<1); ula) 
是 状态 s 下 对 手 ( -站 选择 行为 c-; 的 单位 矢量 表示 。 


单位 矢量 w(a-/) 中 包含 与 7 -i 相同 个 数 的 元 素 。 除 了 对 应 于 行为 a-/ 的 元 素 


等 于 1 之 外 ,单位 矢量 u(a -站 中 的 元 素 均 为 零 。 
在 研究 工作 中 ， 提 出 了 一 种 利用 EMA 算法 的 简单 算法 。 该 算法 称 为 EMA 0 
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学 习 算 法 。 所 提出 的 算法 采用 EMA 机 制作 为 更 新 智能 体 自身 策略 的 基础 。 此 外 ， 
在 更 新 智能 体 策略 时 采用 两 种 不 同 的 可 变 学 习 速 率 ;和 mwm， 而 不 是 在 文献 [25， 
26] 中 所 采用 的 唯一 恒定 学 习 速 率 mn。 这 些 可 变 学 习 速 率 的 值 与 迭代 次 数 成 反 
比 。 学 习 智 能 体 j 的 递归 0 学 习 算 法 由 以 下 方程 给 出 : 
V1 (s,a) =(1-0)Qi(s,a) +0(r +2 maxQ/(s',a’) ) (4. 80) 

EMA Q 学 习 算 法 通过 式 (4.81) 更 新 智能 体 j 的 策略 ， 而 算法 4.7 列 出 了 学 
习 智 能 体 j 的 EMA 0 学 习 算 法 的 过 程 。 

算法 4.7 智能 体 j 的 EMA O 学 习 算法 

初始 化 : 

学 习 速 率 9e (0, 1], n An, € (0, 1] 

增益 常数 

探索 率 € 

折扣 因数 Z 

(550) 0 A als) 


重复 

(a) 根据 具有 某 一 探索 率 的 策略 or) (5, a), EIR 选择 行为 a。 
(b) 观测 直接 回报 ”和 新 状态 s'。 

(c) 根据 式 (4.80) 更 新 Qi,1 (s, a) 。 

(d) 根据 式 (4.81) 更 新 策略 到,，(*，a) 。 























mii (s) = (1 =k) ri(s) +h u(a) (4.81) 
式 中 ,上 为 增益 常数 ，; 
n, WR a =arg maxQ!(s,a’) 
"| 


M 其 他 


一 


u(a) = 


ulaj 如 果 a = arg maxQj(s,a') 





ula) 其 他 
ua!) BET MEATY d 等 于 1 的 元 素 之 外 等 于 零 的 元 素 的 单位 矢量 表示 。 
这 会 使 得 当 智能 体 j 选择 行为 和 从 智能 体 0 表 中 得 到 的 贪 楚 行 为 相同 时 加 快 


EMA 0 学 习 的 学 习 速 度 。 另 一 方面 ，“(o5) =— 4 [1 -w(w/)] 。 这 会 使 得 
J 
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当 智能 体 7 所 选择 行为 和 从 智能 体 0 表 中 得 到 的 贪 梦 行为 不 同时 ，EMA Q 学 习 
更 为 谨慎 并 增 大 探索 其 他 智能 体 行为 的 概率 。 











4.15 EMA Q 学 习 与 其 他 方法 的 仿真 与 结果 比较 


























TEAS Fh HE RE PELE A LEE HP, 已 对 EMA 0 学 习 、WoLF - PHC’?! 、 
GIGA - WoLFL27] 、 加 权 策 略 学 习 〈WPL)I2] 和 梯度 上 升 策略 与 近似 策略 预测 
(PGA - APP) [12?] 算 法 进行 了 评估 。 在 此 ， 只 给 出 EMA 0 学 习 、PGA - APP 和 
WPL 算法 。 本 节 给 出 了 WPL, PGA - APP 和 EMA Q 学 习 算法 应 用 于 不 同 矩 阵 博 
弈 和 随机 博弈 的 结果 。 同 时 对 3 种 算法 之 间 纳 什 均衡 的 收敛 性 进行 了 比较 。 在 应 
用 于 同一 个 博弈 时 ， 对 所 有 算法 采用 相同 的 学 习 速 率 和 探索 率 。 在 某 些 情况 下 ， 
这 些 速 率 与 文献 [29] 中 的 非常 接近 。 而 在 其 他 情况 下 ， 通 过 试 错 法 选择 这 些 
速率 的 值 以 达到 这 些 算法 的 最 佳 性 能 。 

4.15.1 和 矩阵 博弈 

重新 审视 矩阵 博弈 来 阐述 EMA Q 学 习 算 法 的 性 能 提高 。EMA 0 学 习 、 

PGA - APP 和 WPL 算法 适用 于 和 矩阵 博 穿 。 同 时 也 适用 于 三 玩家 的 猿人 硬币 游戏 。 


图 4-22 给 出 了 困境 游戏 中 两 个 玩家 的 第 二 个 行为 的 概率 分 布 。 其 中 分 别 给 出 了 
EMA Q 学 习 、PGA - APP 和 WPL 算法 。 在 该 博弈 游戏 中 ，EMA 0 学 习 算 法 的 参 


Ft l = = £ _ RIR a 
数 设 置 如 下 : N, = Toner M=0.01n, k=1, 《=0、9=0.05、 探索 率 e = 
0.05。 在 PGA - APP 算法 中 ， 参 数 y 设 为 y= 0.5， 在 WPL 算法 中 学 习 速 率 ” 以 
较 慢 的 速率 衰减 ， 且 设 为 7 =a 图 4-23 给 出 了 采用 EMA 0 学 习 、 
PGA - APP 和 WPL 算法 学 习 时 ， 三 玩家 猜 硬 币 游戏 中 3 个 玩家 的 第 一 行为 的 概 
率 分 布 。 在 该 博弈 游戏 中 ，EMA 0 学 习 算法 的 参数 设置 如 下 ; mv = xD 二、 
Mm =2n,, k=1, £=0, 0=0.8, HR £ =0.05。 在 PGA - APP 算法 中 ,参数 
、 ER 5 

J> = Ae Me SUR RK y BE NE BS ye 三 > 

设 为 y= 3， 在 WPL 算法 中 ， 学 习 速 率 7 Rew, FENN a 图 
4-24 给 出 了 在 Shapley 博弈 游戏 中 采用 EMA 0 学 习 、PGA - APP 和 WPL 学习 算 
法 时 玩家 1 行为 的 概率 分 布 。 在 该 博弈 游戏 中 ，EMA 0 学 习 算 法 的 参数 设置 如 


F: Me =D n =2n,. k=1, £=0, 0=0.8, RBH s =0.05, PGA - APP 
































































































































算法 中 的 学 习 速 率 和 参数 y BN y= y =3。 另 一 方面 ,在 WPL 算 
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法 中 ， 学 习 速 率 缓 慢 豪 减 并 设 为 n = 二 505。 图 4-25 给 出 了 在 采用 EMA Q 


学 习 、PGA - APP 和 WPL 算法 学 习 时 偏见 博弈 中 两 个 玩家 第 一 行为 的 概率 分 布 。 
在 该 博弈 游戏 中 ，EMA 0 学 习 算 法 的 参数 设置 如 下 ; n = pte h = 


0.01n,, k =1, £= 0.95, 06= 0.8 、 探 索 率 es = 0.05。 在 PGA -APP 算 法 中 , C 
Aly 的 值 设置 如 下 : C= 0 和 y= 3。 在 WPL 算法 中 ， 参 数 7 设 为 = 0， 且 学 习 
速率 q 以 较 慢 的 速率 衰减 并 设 为 n= 二 一 万 而 。 如 图 4-22 ~ 图 4-24 所 示 ， 当 采 
FA EMA 0 学习、PGA - APP 和 WPL 学 习 算 法 时 ， 玩 家 策略 在 所 有 博弈 游戏 中 均 
成 功 收敛 到 纳什 均衡 。 在 此 需要 重点 提 及 的 是 ，WPL 算法 在 三 玩家 猜 硬币 游戏 
中 可 成 功 收敛 到 纳什 均衡 ， 尽 管 在 文献 【29] 中 表明 该 算法 博弈 游戏 中 发 散 。 
另 一 方面 ， 图 4-26 表明 PGA - APP 和 WPL 算法 都 不 能 在 偏见 游戏 中 收敛 到 纳什 
均衡 ， 只 有 EMA Q 学 习 算 法 可 在 偏见 游戏 中 成 功 收敛 到 纳什 均衡 。 



















































































1 2 。 采用 EMA Q 学 习 算法 的 四 徒 困境 博弈 1 2 采用 PGA-APP 算 法 的 内 徒 困境 博 蛮 
aal 一 一 玩家 1 采取 行为 2 的 概率 || ak = peste ees i 
玩家 2 采取 行为 2 的 概率 Ul eae 玩家 2 来 取 行 为 2 的 概 3 
I pns : 1 
i 
0.9} 0.9 上 
0.8 上 0.8 上 
a 0.7} | wy 0.7 上 
HR 0.67 ] # 0.6 f 
0.57 1 0.5 f 
0.4} 0.4 f 
0.3 F 0.3 上 
0.2 + 0.2 | 
0.1 0.17 
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RRAS H EOR 
a) 42 采用 WPL 算 法 的 囚徒 困境 博弈 a 
玩家 1 采取 行为 2 的 概率 
r …-… 玩家 2 采取 行为 2 的 概率 





























ae 0 z0 2000 7000 S000 s00 700 3000 a 10.000 
ERR 
9) 
图 4-22 办 徒 困境 博弈 中 两 个 玩家 采取 第 二 行为 的 概率 分 布 。 转 载 自 文献 [24], © 
M. Awheda 和 Schwartz, H. M 
a) EMA 0 学 习 算法 b) PGA -APP 算 法 c) WPL 算法 
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采用 EMA Q 学 习 算 法 的 三 玩家 猜 硬 币 博弈 游戏 采用 PGA-APP 算 法 的 三 玩家 猜 硬币 博弈 游戏 
0.9 























一 一 玩家 1 采取 行为 1 的 概率 “Rh 一 一 玩家 1 采取 行为 1 的 概率 

0.9 F 一 -一 玩家 2 采取 行为 1 的 概率 |] 0.8 t 一 一 一 玩家 2 采取 行为 1 的 概率 

eal ~…-… 玩家 3 采取 行为 1 的 概率 io 玩家 3 采取 行为 1 的 概率 
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迭代 次 数 x104 迭代 次 数 x104 
a. 采用 WPL 算 法 的 三 玩家 猜 硬币 博弈 游戏 b) 
AN 一 一 ”玩家 1 采取 行为 1 的 概率 
0.8}: k 一 一 一 玩家 2 采取 行为 1 的 概率 | 
i 玩家 3 采取 行为 1 的 概率 
a7t < 3 
eT 
ae 
O67 AON 
ae os 
#05) Se 
W 
0.4 $ 
0.3 
0.2 
0.1 1 1 È 1 1 1 1 1 1 
002040608 1 12141618 2 
RRA x104 
c) 

















图 4-23 三 玩家 猜 硬币 博弈 游戏 中 3 个 玩家 采取 第 一 行为 的 概率 分 布 。 转 载 自 文献 
[24], OM. Awheda 和 Schwartz, H. M 
a) EMA 0 学 习 算法 b) PGA-APP 算法 c) WPL 算法 





4.15.2 ”随机 博弈 


在 此 要 特别 说 明 的 是 ， 只 考虑 两 个 玩家 从 初始 状态 的 第 一 个 行为 。 因 此 ， 本 
节 的 图 中 只 给 出 玩家 在 初始 状态 下 行为 的 概率 。 
4.15.2.1 网 格 博弈 1 
图 4-27a 中 再 次 给 出 了 EMA 0 学 习 、PGA - APP 和 WPL 算法 用 于 网 格 博 弈 
1 的 学 习 。 网 格 博弈 1 具有 10 个 不 同 的 纳什 均衡 5] 。 图 4-28a 给 出 了 其 中 一 个 纳 
什 平衡 。 图 4-28a 表明 当 两 个 玩家 处 于 初始 状态 时 ， 向 北 的 行为 是 最 佳 行为 。 所 
有 算法 中 所 采用 的 学 习 速 率 和 探索 率 均 相同 。EMA 0 学 习 算 法 的 参数 设置 如 下 : 


1 1 
= = = = = 探索 率 = 其 中 
nw = T0 D nı =0. 0017, , k=5, 6=0, 6=0.8, AN FR e=] 0.001; ’ FS š 
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采用 EMA Q 算 法 的 Shapley 博 弈 ae 采用 PGA-APP 算 法 的 Shapley 博 弈 
i 一 一 玩家 1 采取 行为 1 的 概率 一 一 玩家 1 采取 行为 1 的 概率 
ozh | 玩家 1 采取 行为 2 的 概率 | 07 一 一 一 玩家 1 采取 行为 2 的 概率 
一 一 一 玩家 1 采取 行为 3 的 概率 : 一 一 一 玩家 1 采取 行为 3 的 概率 
0.6 + 
0.5 d 
xe H 
be 0-4 F 
0.3 
0.2 
0.1 
0 02040608 1 12141618 2 0 02040608 1 12141618 2 
迭代 次 数 x104 迭代 次 数 x104 
a 采用 WPL 算 法 的 Shapley 博 弈 b) 
一 一 玩家 1 采取 行为 1 的 概率 
oze | 玩家 1 采取 行为 2 的 概率 
-一 一 玩家 1 采取 行为 3 的 概率 




















0 02 0.4 0.6 08 1 12 14 16 18 2 
RRR x104 
c) 
图 4-24 Shapley 博弈 游戏 中 玩家 1 行为 的 概率 分 布 。 转 载 自 文献 [24], © M. Awheda 
和 Schwartz，H. M 








a) EMA 0 学 习 算法 b) PGA -APP 算 法 c) WPL 算法 














i 是 每 次 博 穿 中 的 当前 迭代 次 数 。PGA - APP 算法 的 参数 值 与 EMA 0 学 习 算 法 的 
j - ae ILA He SEER n- 1 

参数 值 相同 , 除了 y= 3 Hn 具有 非常 缓慢 的 衰减 率 ， n =m aAa 算 
法 也 具有 与 EMA 0 学 习 算法 相同 的 参数 ， 除 了 学 习 速 率 m 具有 非常 缓慢 的 衰减 
sk 7 1 
率 , 7 =794775000° 

图 4-26a 表明 当 采 用 具有 不 同 增益 常数 的 EMA 0 学 习 算 法 进行 学 习 时 ， 
在 初始 状态 下 玩家 1 选择 向 北 行为 的 概率 。 在 采用 具有 不 同 恒定 增益 的 EMA 
0 学 习 算法 学 习 时 ， 玩 家 2 具有 类 似 的 概率 分 布 。 图 4-26a 表明 随 着 恒定 增益 
逐渐 增 大 ， 玩 家 1 收敛 到 最 佳 行为 (向 北 ) 的 速度 也 相应 加 快 。 图 4-26a 给 出 玩 
家 1 选择 最 佳 行为 向 北 的 概率 在 k = 5 时 大 约 需 要 80 次 博弈 收敛 到 1， 而 在 = 
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采取 EMA OS BEM te LSE 采取 PGA-APP 算 法 的 偏见 博弈 
1.2 0.8 
14 一 一 玩家 1 采取 行为 1 的 概率 一 一 玩家 1 采取 行为 1 的 概率 
J 玩家 2 采取 行为 1 的 概率 özl 一 玩家 2 采取 行为 1 的 概率 
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EPR ie 10 ee AR eds 2 
a) oe 采取 WPL 算 法 的 偏见 博弈 x10 


He | 玩家 1 采取 行为 1 的 概率 
| ee 玩家 2 采取 行为 1 的 概率 
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0 02 040608 1 121416 18 2 
迭代 次 数 x105 
c) 
图 4-25 ”偏见 博弈 游戏 中 两 个 玩家 采取 第 一 行为 的 概率 分 布 。 转 载 自 文献 [24], © 
M. Awheda 和 Schwartz, H. M. 
a) EMA 0 学 习 算 法 b) PGA - APP 算 法 c) WPL 算 法 


3 时 需 320 次 收敛 到 1。 另外 ， 当 有 = 1 时 ,需要 更 多 次 博弈 才能 收敛 到 1。 图 
4-26b 和 c 分别 给 出 了 采用 EMA 0 学 习 、PGA - APP 和 WPL 算法 学 习 时 ， 两 个 
玩家 在 初始 状态 下 采取 向 北 行为 的 概率 。 该 图 表明 在 采用 EMA 0 学 习 算 法 学 习 
时 ,两 个 玩家 采取 向 北 行为 的 概率 可 收敛 到 纳什 平衡 (收敛 到 1)。 而 
PGA - APP 和 WPI 算法 不 能 使 得 玩家 策略 收敛 到 纳什 平衡 。 图 4-26 表明 在 收敛 
到 纳什 平衡 方面 ，EMA 0 学 习 算 法 要 优 于 PGA - APP 和 WPL 算法 。 同 时 还 表 
BA, EMA 0 学 习 算 法 可 通过 调节 恒定 增益 的 值 ， 在 较 少 博弈 次 数 下 就 可 收敛 
到 纳什 均衡 。 这 也 是 EMA 0 学 习 算 法 相对 于 PGA - APP 和 WPL 算法 的 经 验 优 
势 。 
4.15.2.2 网 格 博弈 2 

EMA 0 学习 、PGA - APP 和 WPL 算法 也 适用 于 学 习 图 4-27b 所 示 的 网 格 博 
弈 2。 网 格 博弈 2 具有 两 个 纳什 均衡 81 。 图 4-28b 给 出 了 其 中 一 个 纳什 均衡 。 显 
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采用 EMA Q 学 习 算 法 
~~ 采用 PGA-APP 学 习 算法 
一 一 一 - 采用 WPL 学 习 算 法 
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SERB 博弈 次 数 
b) 

一 一 采用 EMA Q 学 习 算 法 

0.3 …-… 采 用 PGA-APP 学 习 算 法 H 

02 一 ~ 一 采用 WPL 学 习 算法 
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弈 次 数 
c) 











图 4-26 网 格 博弈 1。 转载 自 文献 [24], OM. Awheda 和 Schwartz, H. M 
a) BARRERA k W EMA Q 学 习 算法 学 习 时 玩家 1 采取 向 北 行为 的 概率 b) c) ER 
EMA 0 学 习 、PGA - APP 和 WPL 算法 时 玩家 1 和 玩家 2 分 别 采 取向 北 行为 的 概率 









































障碍 
墙 :概率 1/2 
非 墙 :概率 1/2 

















b) 





图 4-27 两 个 随机 博弈 [8] 。 转 载 自 文献 [24], ©M. Awheda 和 Schwartz, H. M 
a) 网 格 博弈 1 b) 网 格 博弈 2 


然 ， 由 这 个 特定 的 纳什 均衡 可 以 看 出 ， 向 北 行为 是 玩家 1 在 初始 状态 的 最 佳 行 
为 ， 而 向 西行 为 是 玩家 2 的 最 佳 行为 。 因 此 ， 在 算法 收敛 到 该 特定 纳什 均衡 时 ， 
玩家 1 选择 向 北 行为 的 概率 应 收敛 到 1。 男 一 方面 ， 玩 家 2 选择 向 西行 为 的 概率 
也 应 收敛 到 1。 所 有 算法 所 采用 的 学 习 速 率 和 探索 率 均 相 同 。EMA Q 学 习 算 法 的 
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图 4-28 a) 网 格 博弈 的 纳什 均衡 b) 网 格 博弈 2 的 纳什 均衡 [41 。 经 MIT 出 版 
社 授 权 。 转 载 自 文献 [24], OM. Awheda 和 Schwartz, H. M 
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SET 1 
A . _— 
参数 设置 如 F: Nw 10 +i 1 +0. O001i 











Res ， 其 中 ,i 为 博弈 的 当前 个 数 。 除 了 y= 3、 = 0， 且 刀具 有 非 


常 缓慢 的 衰减 速率 7 = ae: PGA - APP 算法 的 参数 值 与 EMA Q 学 习 
算法 的 参数 值 相同 。WPL 算法 也 具有 与 EMA 0 学 习 算 法 相同 的 参数 ， 除 了 * = 


0 且 具有 非常 缓慢 的 衰减 速率 = 一 s005。 


Al 4-29a 给 出 在 采用 EMA 0 学 习 、PCA - APP 和 WPL 算法 学 习 时 玩家 1 VE 
择 向 北 行为 的 概率 。 图 4-29a 表明 当 玩 家 1 采用 EMA 0 学习 算 法 学 习 时 ， 玩 家 1 
选择 向 北 行为 的 概率 成 功 收敛 到 1 (纳什 均衡 )。 而 PGA - APP 和 WPL 算法 不 能 
使 得 ia 2 选择 向 北 行为 。 图 4-29b 2 ee EMA 0 学 习 、 















































1.3 1.3 
1 2 一 一 录用 EMA On Jae | 49 一 一 录用 EMA 这 要 法 
人 | RHPGA-AP P 算 法 一 PGA APP 算 法 
1.1 一 -一 采 用 WPL 算 法 人 = 水 用 WPL 算 法 
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博弈 次 数 博弈 次 数 
a) b) 
图 4-29 网 格 博弈 2。 转 载 自 文 献 [24], OM. Awheda 和 Schwartz, H. M 
a) 采用 EMA Q 学习、PGA - APP 和 WPL 算法 学 习 时 玩家 1 选择 向 北 行为 的 概率 b) 采用 EMA Q 学 习 、 
PGA — APP 和 WPL 算法 学 习 时 玩家 2 选择 向 西行 为 的 概率 
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PGA - APP 和 WPL 算法 学 习 时 ， 玩 家 2 选择 向 西行 为 的 概率 。 由 图 4-29b 可 知 ， 
当 玩 家 2 采用 EMA Q 学 习 算法 学 习 时 ， 玩 家 2 选择 向 西行 为 的 概率 成 功 收敛 到 1 
(纳什 均衡 )。 另 一 方面 ，PGA - APP 和 WPL 算法 不 能 使 得 玩家 2 以 概率 1 选择 向 
西行 为 。 图 4-29 表明 EMA 0 学 习 算 法 在 收敛 到 纳什 平衡 方面 优 于 PGA - APP 和 
WPL 算法 。 这 使 得 EMA 0 学 习 算 法 相对 于 PGA - APP 和 WPL 算法 有 经 验 优势 。 
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BS it 微分 博弈 


5.1 简介 


在 不 远 的 将 来 ， 机 器 人 团队 将 会 协同 合作 完成 许多 任务 。 在 本 书 撰写 过 程 
中 ,已 经 看 到 无 人 机 在 监控 、 测 绘 和 其 他 繁琐 任务 等 方面 得 到 了 广泛 应 用 。 同 
时 ， 也 见证 了 真正 的 自主 交通 运输 工具 逐步 开始 应 用 。 无 人 芍 驶 还 会 很 入 吗 ? H 
前 ， 笔 者 正 准 备 研 究 将 多 台 自 主 车 协同 工作 以 作为 某 种 类 型 的 群 智能 。 这 些 机 器 
人 或 自主 车 团队 可 以 是 空中 无 人 机 、 陆 地 自主 车 和 水 下 无 人 船 的 组 合 。 这 些 车 辆 
具有 不 同 的 配置 和 能 力 。 与 前 面 的 内 容 不 同 ， 这 些 车 辆 不 会 约束 在 网 格 中 ， 而 是 
在 一 个 连续 且 动 态 变 化 的 环境 中 运行 。 这 些 车 辆 的 行为 可 通过 微分 方程 进行 数学 
描述 。 自 主 车 所 采取 的 行为 本 质 上 最 终 是 控制 行为 。 这 些 行为 可 以 是 各 种 执行 机 
构 上 的 电压 设 定 值 。 在 此 ， 将 这 些 类 型 的 系统 称 为 微分 博 穿 (DG) 。 

这 些 类 型 的 智能 体 的 目标 是 学 习 如 何 协同 工作 以 及 如 何 适 应 自身 或 其 他 机 带 
人 的 功能 变化 。 例 如 ， 如 果 一 个 或 多 个 其 他 机 器 人 失效 或 损坏 ， 则 其 余 自 主 车 必 
须 能 够 实时 适应 这 种 情况 。 此 外 ， 自 主 车 初始 未 知 其 他 机 器 人 的 能 力 ， 且 每 台 自 
主 车 必须 学 习 如 何 与 其 他 自主 车 合作 。 

本 章 利用 两 个 著名 的 博弈 游戏 来 评估 多 智能 体 在 这 些微 分 博弈 中 的 各 种 学 习 
方法 。 在 此 研究 的 两 个 博弈 : 一 个 博弈 是 “逃跑 者 - 追捕 者 ”博弈 ， 另 一 个 是 
“疆土 防御 ”博弈 。 

未 来 的 安全 应 用 中 需要 机 器 人 来 保护 关键 基础 设施 ''1 。 机 器 人 需 协 同 合作 
以 防止 人 侵 者 穿 过 安全 区 域 。 同 时 ， 还 必须 适应 不 可 预测 和 不 断 变 化 的 环境 。 目 
标 是 学 习 采 取 什 么 措施 以 在 安全 守卫 任务 中 获得 最 佳 性 能 。 在 此 ， 将 这 种 应 用 建 
模 为 “疆土 防御 ”博弈 。 疆 土 防御 的 微分 博弈 首先 由 Isaacs 提出 5 。 在 该 博弈 
中 ， 人 入侵 者 试图 尽 可 能 接近 领土 ， 而 防御 者 试图 拦截 并 使 得 入 侵 者 尽 可 能 远离 领 
E» Isaacs 的 疆土 防御 博弈 是 一 种 玩家 的 动态 方程 ， 是 微分 方程 的 微分 博弈 。 在 
逃跑 者 -追捕 者 博弈 中 ， 追 捕 者 试图 捕获 逃跑 者 ， 而 逃跑 者 试图 避免 捕获 。 该 博 
弈 的 实际 应 用 是 自主 移动 机 器 人 的 监控 和 安全 防卫 任务 。 

微分 博弈 中 的 玩家 需要 在 没有 最 优 策略 的 先 验 知识 条 件 下 学 习 采 取 何 种 行 
为 。 文献 [3 -6] 深入 研究 了 微分 博弈 的 学 习 问 题 。 在 这 些 文献 中 ， 强 化 学 习 
算法 应 用 于 逃跑 者 - 追捕 者 博弈 游戏 中 的 玩家 。 有 关 性 土 防御 博弈 的 早期 研究 工 
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作 可 参考 文献 [7，8] ， 但 并 未 分 析 玩 家 如 何 通 过 博弈 来 学 习 其 最 优 策 略 。 假 设 
防御 者 没有 其 最 优 策略 或 人 侵 者 策略 的 先 验 知识 。 在 此 探讨 如 何 将 强化 学 习 算法 
应 用 于 疆土 防御 的 微分 博弈 中 。 

传统 的 强化 学 习 算法 (如 0 学习 ) 可 能 会 由 于 其 难处 理性 、 连 续 状 态 空 间 
和 行为 空间 庞大 而 导致 维 数 灾 难 问题 。 为 避免 上 述 问题 ， 可 采用 模糊 系统 来 表征 
连续 空间 [91 。 在 文献 [4 -6] 中 将 模糊 强化 学 习 方 法 应 用 于 逃跑 者 -追捕 者 微 
DRF, EX [5] 中 ， 对 于 逃跑 者 - 追捕 者 博弈 应 用 了 执行 器 -评价 器 模糊 
学 习 (FACL) 算法 。 









































5.2 模糊 系统 简 述 





模糊 系统 已 广泛 应 用 于 工程 学 、 自 然 科 学 、 商 业 、 医 学 、 心 理学 及 其 他 领 
域 n0 中 。 以 工程 学 为 例 ， 一些 潜在 的 应 用 领域 包括 101. 

e 飞行 器 /航天 器 : 飞行 控制 ， 发 动机 控制 ， 航 空 电 子 系统 、 故 障 诊断 、 导 
航 和 卫星 姿态 控制 ; 

o 机 器 人 : 位 置 控 制 和 路 径 规划 ; 

。 自主 车 辆 : 地 面 和 水 下 ; 

。 自动 高 速 公 路 系统 : 车 辆 的 自动 转向 、 制 动 和 节气 门 控 制 。 

在 本 章 中 ， 利 用 模糊 推理 系统 (FIS) 来 控制 机 器 人 和 评价 器 。 评 价 器 是 一 
个 近似 估计 连续 状态 和 行为 空间 中 连续 Q 函数 的 模糊 推理 系统 。 为 此 ， 后 面 将 
简要 介绍 模糊 系统 。 


5.2.1 模糊 集 和 模糊 规则 


模糊 集 通 过 利用 隶属 函数 (MF) 表征 的 语言 变量 来 进行 数值 计算 i 。 模 
MkM ede tt T — Ab BS ARATE, KERIA, 

论 域 X 定 义 为 具有 相同 特征 的 元 素 x 的 集合 。X 中 的 模糊 集 4 可 根据 文献 
ae 














= | (æm (x) ) lw eX] (5.1) 

式 中 ， eames: 

隶属 函数 可 以 在 0 ~1 取 值 。 隶 属 函 数 将 论 域 中 的 元 素 映 射 到 0 ~ 1 的 隶属 
E, WFR oy (x) BO 或 1， 则 模糊 集 A 称 为 空 集 或 全 集 。 

由 于 隶属 孔 数 的 分 级 性 ， 模 糊 集 理 论 中 的 集合 运算 较 复 杂 ， 如 并 集 和 交集 。 
Zadeht ?提出 交集 和 并 集运 算 的 定义 如 下 : 

并 集 urug) = max| u(x) ,Mp(%) ] 

交集 jng(x) =min[pa(x) g(x) ] 











114 多 智能 体 机 器 学 习 : 强化 学 习 方 法 





式 中 ，A 和 B 为 模糊 集 。 
隶属 函数 通常 图 形 化 描述 。 图 5- 1 给 出 了 常用 于 模糊 集 理论 的 各 种 类 型 的 隶 
函数 。 例 如 ， 图 5- 1b 所 示 的 高 斯 隶属 函数 为 





























a) 单 点 b) 高 斯 c) 广义 钟 





d) 函数 e) 三 角形 f) 梯形 








图 5-1 隶属 函数 示例 。 转 载 自 文献 [13], OB, Al Faiya 


ma =em( - (222) ] (5.2) 


式 中 ， 高 斯 隶属 函数 的 参数 为 平均 值 m 和 标准 方差 o。 
图 5-1f 所 示 的 梯形 隶属 函数 有 4 个 参数 。 梯 形 隶 属 函数 定义 为 












































0 xX LQ 
[= 
QS 
Pea :aSx <B 
f(x) =11 :B<x<Y (5.3) 
= :y <xA 
0 :xX>A 


IF — THEN 模糊 规则 可 以 在 不 确定 性 和 不 精确 性 环境 中 有 效 模拟 人 类 经 
Belt) | TE -THEN 模糊 规则 定义 为 
N, :if x is A then y is B (5.4) 
SUP, x. y 称 为 模糊 变量 或 语言 变量 ; 集合 4 和 B ETE X, 了 中 定义 的 模糊 集 
合 ;“x is 4” 称 为 前 件 或 前 所， 而 “y is B” 称 为 后 件 或 结论 。 
Takagi - Sugeno (TS) 模糊 系统 中 所 采用 的 正 -THEN 模糊 规则 给 出 从 输入 
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模糊 集 到 输出 线性 函数 之 间 的 映射 关系 上 251 。 规 则 具有 以 下 形式 ; 
Ji:F x; is A| AND x is A} AND---AND x; is A; THEN 


式 中 , 妃 为 规则 L 的 输出 函 


fp = Ko +: + Kix, (5.5) 
数 ; K, 是 后 件 参数 。 





当 有 /为 常数 时 ， 可 得 一 个 零 阶 TS ean 1 中 。 设 对 于 输出 ，K' 为 常数 。 
规则 个 数 取 决 于 输入 个 数 及 其 相应 的 隶属 函数 。 给 定 两 个 输入 旦 每 个 输入 具有 3 





个 隶属 函数 ， 则 需 构 建 9 条 


k (3 = 9) 规则 ， ， 


:IF x, is A, AND x, is A, THEN f, =K! 
:IF x, is A, AND x, is A, THEN f =K? 
:IF x, is A, AND x, is A, THEN f =K? 
:IF x, is A, AND x, is A, THEN fy = K* 
:IF x, is A, AND x, is A, THEN f = K° 
:IF x, is A, AND x, is A THEN f, = KG 
:IF x, is A, AND x, is A, THEN f, =K’ 
:IF x, is A, AND x, is A; THEN f = Ks 
:IF x, is A, AND x, is 4g THEN f) =K? 














构造 模糊 规则 的 另 — 种 形式 是 表 5. 1 的 规则 表 。 


表 5.1 规则 表 














5.2.2 模糊 推理 机 








模糊 推理 机 用 于 将 模糊 规则 库 中 的 下 -THEN 模糊 规则 组 合成 从 XX 中 的 模糊 
集 4' 到 了 中 的 模糊 集 B' 的 映射 。 常 用 的 一 种 模糊 推理 机 称 为 直 积 推 理 机 。 在 本 
节 中 ， 主 要 介绍 和 阐述 直 积 推理 机 的 结构 。 

证 先 提供 模糊 集 的 两 种 运算 ， 交集 和 并 集 。 假 定 已 有 同一 论 域 0 中 定义 的 
两 个 模糊 集 A 和 B， 这 两 个 模糊 集 的 交集 也 是 一 个 模糊 集 ， 其 隶属 函数 为 








ManBl% ) 











=T(pa(%) ,Mp(%)) =u;(x) * g(x) (5.6) 


APF, 定义 为 ! 范 数 算 子 ， 两 种 常用 的 上 范 数 算 子 如 下 : 
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最 小 值 :7 (a,b) =min(a,b) (5.7) 
代数 积 :T,, (a,b) =ab (5.8) 
两 个 模糊 集合 4 和 B 的 并 集 也 是 一 个 模糊 集 ， 其 隶属 函数 如 下 : 
MauB(%) =SCOU(CY) oe (%)) =u4(x) +ug(x) (5.9) 
式 中 ，+ 表示 s 范 数 算 子 ， 两 种 常用 的 范 数 算 子 如 下 : 
RAMA: S,,,.(a,b) =max(a,b) (5. 10) 
代数 和 :Sa (a,b) =a +b -ab (5.11) 


在 直 积 推理 机 中 ， 对 于 所 有 上 范 数 算 子 ， 采 用 代数 积 ， 而 对 于 所 有 s 范 数 算 
子 ， 采 用 最 大 值 。 
为 解释 IF -THEN 操作 ， 可 采用 Mamdani AMER, Æ Mamdani AMKA 
中 ,IF -THEN 模糊 规则 可 看 作 一 个 如 下 二 元 模糊 关系 : 
MR(%,y) =M4xB(YY) =Maoe(%y) =Ma (x) * gly) (5. 12) 
IF, AB 用 于 解释 模糊 关系 。 
若 式 (5.8) 作为 式 (5. 12) 中 的 1 范 数 算 子 * S 则 后 者 称 为 Mamdani 直 积 
蕴涵 。 在 模糊 逻辑 中 ， 广 义 假 言 推 理 定义 为 
前 提 1 (规则 ): ifxisAthenyisB 
前 提 2 (事实 ) : x is A’ 
结论 : y is B’ 
根据 广义 假 言 推理 ， 模 糊 集 B' 推 断 为 
Up = supT| uy (x) Map (X,Y) J (5.13) 
NF, TL +] 表示 上 范 数 算 子 ; sup 表示 集合 中 的 最 大 元 素 。 
在 基于 单个 规则 的 推理 中 ， 每 条 下 - THEN 模糊 规则 将 生成 单个 输出 模糊 
集 ， 模 糊 推 理 机 的 输出 是 所 有 单个 模糊 输出 集 的 组 合 。 在 直 积 推理 机 中 ， 通 过 并 
集合 并 单个 模糊 输出 集 。 
综 上 所 述 ， 直 积 推理 机 包括 以 下 3 个 部 分 : 
1) 所 有 + 范 数 算 子 的 代数 积 和 所 有 s 范 数 算 子 代 数 积 的 最 大 值 ; 
2) Mamdani Hf RAMMER; 
3) 基于 个 体 规则 的 推理 与 并 集 组 合 
根据 上 述 的 直 积 推 吉 构 ， 式 Gs. 13) 变 为 





















































My (y) = max Me, (y) 


= max axl sup (dy (a ,Tye (99 1 (5. 14) 


在 此 以 一 个 示例 为 例 。 perenne T: THEN 模糊 规则 ， 且 每 条 规则 有 
两 个 前 件 : 
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前 提 1( 规 则 1): ifxi is A! and x, is A4 then y is B! 
前 提 2( 规 则 2): if x, is A? and x, is A} then y is B? 





wee (5. 15) 
前 提 3 ( 事实 ) : x, is A’; and x, is A’, 
结论 : y is B’ 
则 对 于 式 (5. 15) ， 直 积 推理 机 的 输出 为 
2 2 
Hg (y) = cir max| uy, (x4 Jua, (%2) Teas) ray) ] (5. 16) 
= X1 4X j=l 


5.2.3 模糊 化 与 去 模糊 化 


图 5-2 给 出 了 模糊 系统 结构 。 模 糊 系统 中 的 第 一 个 模块 是 模糊 化 接口 。 模 糊 
化 接口 将 具有 精确 量 的 每 个 输入 转换 成 隶属 函数 中 的 隶属 度 '' 1。 模糊 化 接口 使 
得 输入 值 与 规则 的 条 件 匹配 。 模 糊 化 过 程 确定 每 条 规则 的 条 件 与 特定 输入 的 匹配 
程度 。 对 于 输入 变量 ， 都 有 对 应 的 每 个 语言 变量 的 隶属 度 。 
















模糊 规则 
IF-THEN 


输入 输出 


模糊 推理 机 


图 5-2 模糊 系统 组 成 结构 。 转 载 自 文献 [13], © B，Al Faiya 
去 模糊 化 过 程 是 将 模糊 量 转换 成 精确 量 。 由 于 是 计算 效率 最 高 的 方法 之 一 ， 
加 权 平 均 去 模糊 化 法 在 模糊 应 用 中 最 常用 。 加 权 平 均 去 模糊 化 法 表示 为 


























fea (5. 17) 
之 (TIu; ) 
=1 724 


RP, J 是 输入 变量 个 数 ，1 为 规则 个 数 。 
5.2.4 模糊 系统 及 其 示例 

作为 控制 器 时 ， 模 糊 系 统 也 称 为 FIS， 或 模糊 控制 器 。TS 模糊 系统 和 Mam- 
dani 模糊 系统 在 模糊 应 用 中 最 常见 。 在 此 研究 模糊 系统 逼近 给 定 系统 的 程度 。 文 


献 [15] 提出 的 以 下 定理 称 为 “万 能 逼近 定理 ” 。 接 下 来 通过 一 个 示例 来 表明 模 
糊 系统 的 性 能 。 
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定理 5.1 对 于 任意 给 定 的 连续 实 函 数 g(x) 上 的 紧 集 UCR" 和 任意 a > 0 的 
高 斯 隶属 函数 ， 存 在 一 个 式 (5.17) 的 模糊 逻辑 系统 f(x) ， 使 得 
sup |f(x) -g(x)l <e (5. 18) 
详细 证 明 参 见 文献 [15] (124 ~126 W), 
文献 [18] 中 提出 的 以 下 示例 展示 了 模糊 系统 的 性 能 。 结 果 表 明 模 糊 系 统 
是 给 定 非 线 性 的 良好 到 近 。 该 示例 的 目的 是 介绍 模糊 推理 系统 以 及 如 何 通 过 增加 
隶属 函数 来 提高 模糊 推理 系统 对 非 线 性 系统 的 逼近 能 力 。 
例 5.1 考虑 一 阶 非 线 性 系统 。 系 统 动态 方程 由 文献 [15] 给 出 : 
w(t) =o u(t) =S) tulo) (5. 19) 


在 区 间 [ -3, 3] 内 定义 5 个 模糊 集 ; 负 中 (NM), fis) (NS), = 
(ZE)、 正 小 (PS) 和 正中 (PM). RIE RAO 
ym (x) =exp( - (x +1.5)°) 
Mns(%) =exp( - (x +0.5)”) 
HZE(X) =exp( -x°) 
Hps(x) =exp( - (x -0.5)*) 
Upu (x) =exp( -(x-1.5)?) 
LXE 5 个 隶属 函数 的 形式 如 图 5-3a 所 示 。 
为 估计 系统 的 动态 性 ， 设 计 下 列 语言 描述 (IF -THEN 模糊 规则 ) : 
RL:ifxaisnear-1.5then f(x) is near —0. 6 
R? if x is near —0.5 then f(x) is near —0. 2 
R? „if x is near 0 then f(x) is near 0 (5.21) 
R .if x is near 0.5 then f(x) is near 0. 2 
R? „if x is near 1.5 then f(x) is near 0. 6 
在 式 (5.4) 中 设 结论 为 yt = -0.6, y = -0.2, y =0, yt =0.2 MY = 
0.6。 由 于 每 条 下 -THEN 模糊 规则 中 只 有 一 个 前 件 ， 在 此 将 式 (5.17) 重 写 为 









































(5. 20) 





5 


Dy [ux)] 


> [pa(%) |] 


1=1 
-0.6UNMCY) — 0. 2uys(x) +0. 2ups(x) +0. 6upy (x) 
Lym («) + bys (x) + Wz (x) + Mps (X) + [py (x) 
= 0. 667415)" — 0, 267-5)" + 0, 2670-5? + 0, 667019? 
eet 5)? + e-(*+0.5)? + ew + e 7 (4-0. 5)? + eT eh 5)? 





(5. 22) 
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为 提高 模糊 系统 的 性 能 ， 需 要 设置 更 为 具体 的 隶属 函数 和 话 言 描 述 。 因 此 ， 
在 区 间 [ -3, 3] 内 定义 7 个 模糊 集 : 负 大 (NB)、 负 中 (NM), fuh (NS), 
零 (ZE)、 正 小 (PS), IE (PM) 和 正大 (PB)。 模 糊 集 NB 和 PB 的 隶属 也 
数 定义 为 pws (x) = exp( - (x + 2.5)?)、Jpp(x) = exp( -(%-2.5)7), BORA 
NM、NS、ZE、PS 和 PM 的 隶属 函数 与 式 (5.20) 中 的 相同 。 图 5-3b 给 出 了 7 
个 模糊 集 的 隶属 函数 。IF -THEN 模糊 规则 如 下 : 


NM NS ZE PS PM 


TE 


























图 5-3 隶属 函数 。 转 载 自 文献 [13], © B, Al Faiya 
a) 5 个 模糊 集 的 隶属 函数 b) 7 个 模糊 集 的 隶属 函数 
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R! ‚if x is near —2.5 then f(x) is near —0. 85 
R? :if x is near —1.5 then f(x) is near —0. 64 
有 :fx is near —0.5 then f(x) is near - 0. 24 
及 :fx is near 0 then f(x) is near 0 (5. 23) 
R5 .if x is near 0.5 then f(x) is near 0. 24 
R° -if x is near 1.5 then f(x) is near 0. 64 
R’ .if x is near 2.5 then f(x) is near 0. 85 
其 中 , y= -0.85, y= -0.64, y= -0.24, y= 0, y = 0.24, y= 
0.64, y = 0.85 是 式 (5.4) 中 的 结论 。 
则 模糊 系统 变 为 


7 
> Cog (x) J 
fx) = 3H eS 
> [mal%)] 
i=] 
- 0. 856729? — 0.64e (115) — 0, 2467005? + 
e7(1+2. 5)? 4 @-(*+1.5)? + e7(7+0.5)? t+e™ A 
0. 246705)? 40, 640715)" +0, 8567025? 
e 7 (470.5)? + eT eh 5)? + e7025) 
图 5-4 给 出 了 函数 估计 了 x) (虚线 ) B 5-5 给 出 了 在 区 间 [ -3, 3] 上 的 
估计 误差 (XR) | f(x) -了 x)1。 


1 
0.87 








(5.24) 





0.67 


a” 















: ---- f(x) 7 条 模糊 规则 














-3 -2 = 0 1 2 3 
图 5-4” 非 线性 函数 /x) 以 及 5 条 规则 和 7 条 规则 推理 的 函数 
Shit (x). RAS [13], © B,，Al Faiya 














第 5 章 微分 博 弃 121 











0.4 
oahs ~~ |f(x) A015 条 规则 
ARN — | f(x) — f(x) | 7 HUI 























-3 2 = 0 1 2 3 
图 5-5 5 条 规则 和 7 条 规则 时 的 估计 误差 
If(x) f(x) |, 转载 自 文献 [13], © B, Al Faiya 





5.3 ”模糊 Q 5) 














志 弈 的 值 是 基于 两 个 玩家 都 采用 各 自 纳什 均衡 策略 的 假设 。 在 实际 应 用 中 ， 
一 个 玩家 可 能 不 知道 自身 的 纳什 均衡 策略 或 对 手 的 策略 。 因 此 ， 需 要 通过 学 习 算 
法 来 学 习 其 均衡 策略 。 应 用 于 微分 博弈 ， 尤 其 是 逃跑 者 -追捕 者 博弈 的 大 多 数学 
习 算 法 都 是 基于 强化 学 习 算 法 [4-5] 。 

一 个 典型 的 强化 学 习 方法 (如 0 学习 ) 需要 离散 化 行为 空间 和 状态 空间 。 
然而 ， 当 连续 状态 空间 或 行为 空间 非常 庞大 时 ， 状 态 或 行为 的 离散 化 表示 是 难以 
计算 的 09] 。Wangt”” 证 明 模 糊 推 理 系 统 是 一 种 可 以 任何 精度 逼近 任意 非 线 性 函 
数 的 万 能 冯 近 器 。 因 此 ， 可 利用 模糊 系统 来 生成 玩家 的 连续 行为 或 表示 连续 状态 
空间 。 

如 图 5-6 所 示 ， 本 章 中 的 模糊 系统 是 由 具有 恒定 后 件 的 TS 规则 实现 的 2?!]。 
在 此 ， 以 如 下 方式 构建 一 个 模糊 推理 系统 来 作为 强化 学 习 系 统 中 的 一 个 组 成 部 
分 。 该 模糊 推理 系统 包括 M 条 规则 ， 其 中 n 个 模糊 变量 作为 输入 ,一 个 常数 作 
为 后 件 。 

每 条 规则 1 (1= 1, ++, M) 的 形式 如 下 : 

R! :IF xı is F! ,and x, is F! 
THEN u=c! (5.25) 
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模糊 化 接口 
精确 值 


模糊 集 





模糊 推理 机 


图 5-6 模糊 系统 的 基本 结构 。 转 载 自 文献 【13 ] ， 经 卡尔 顿 大 学 许可 


式 中 ,x = (x ，…，x, ) 是 传递 给 模糊 控制 器 的 输入 ; Fl 是 对 应 于 模糊 变量 的 
模糊 集 ; u 是 规则 输出 ; d 是 描述 模糊 集中 心 的 常数 。 如 果 在 模糊 列 涵 [20] 、! 范 
数 算 子 、 单 点 模糊 化 和 中 心平 均 去 模糊 化 中 采用 直 积 推理 ， 则 系统 输出 为 


模糊 集 

















> (Ia) ) e) u 
U(x) = =r = > D'o (5. 26) 
2 (TIe) = 
=l i=l 
式 中 ,1 人 是 模糊 集 F 的 隶属 度 ; 
Pu") 
Gx vo (5.27) 
之 (Tuc) ) 
= i=l 


在 模糊 强化 学 习 算法 中 ， 可 采用 模糊 0 学 习 (FQL) 算法 来 对 基于 预定 义 离 
散 行 为 集 的 玩家 生成 全 局 连续 行为 。 假 设 玩家 具有 来 自行 为 集 4 = (a, a, 
an} 中 的 m 个 可 能 行为 。 为 生成 玩家 的 全 局 连续 行为 ,采用 以 下 形式 的 IF - 
THEN 模糊 规则 : 

R, :IF x, is F! and x, is F! 
THEN u =a! (5.28) 
式 中 ， a! 是 从 玩家 离散 行为 集 4 中 选择 的 规则 1 的 行为 ， 行 为 a! 基 于 探索 -开发 
策略 选择 [3] 。 

在 本 章 中 ， 采用 e 贪 焚 策 略 作 为 探索 - 开发 策略 。e 贪 焚 策 略 定义 为 玩家 以 
概率 s 从 玩家 离散 行为 集 4 中 选择 一 个 随机 行为 ， 并 以 概率 1 - e 选择 一 个 贪 禁 
行为 。 贪 禁 行 为 是 在 关联 q 函数 中 具有 最 大 值 的 行为 。 由 此 可 得 
A 中 的 随机 行 的 Prob(s) 
arg max(q(1,a) ) Prob(1 -e) 














(5. 29) 


a = 


RP, q (1, a) 是 给 定 规则 1 和 玩家 行为 we4 下 的 关联 4 函数 。 
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根据 式 (5.26), MA) ¢ 的 全 局 连续 行为 是 
M 
U(x,) = > Bla! (5. 30) 
l=1 
sth, x, =(a,, %, e, «,) 为 输入 ; M 是 IF -THEN 模糊 规则 的 个 数 ，al 是 
FEMA £ Ash (5.29) 中 选择 的 规则 1 的 行为 。 
类 似 于 式 (5. 30)， 可 通过 用 g,(1，a!) 代替 式 (5.26) 中 的 co 来 生成 全 局 
0 函数 ， 可 得 





加 M 
Q,(%,) = > lq, (l,a!) (5.31) 
l=1 


Fob, BLOF (x,) 为 每 条 规则 具有 最 大 gq 值 的 全 局 0 - 函数 。 则 式 
(5.31) 变 为 
加 M 
Q" (x) = 2)", maxq, (l,a) (5. 32) 
l=1 aes 
RP, maxg,(1, a) 表示 规则 ! 中 所 有 行为 ws4 的 9, (1, a) 最 大 值 。 
鉴于 式 (5.31) MIÈ (5. 32) ， 定 义 时 间 差 分 (TD) 误差 为 
Erai =P a1 OF (5141) -0,(%,) (5. 33) 
sth, ye (0, 1) 为 折扣 因数 ; 7, 为 时 刻 : + 1 得 到 的 回报 。 
HIE, q 函数 的 更 新 律 为 
grisal)=g (a) +Q e,,,8) (1=1,.…,M) (5.34) 
RP, n 为 学 习 速 率 。 
FOL 学 习 算法 如 算法 $. 1 所 示 。 
算法 5.1 FQL 算法 
. 初始 化 4(. )=0 和 0Q(:)=0; 
2. 每 次 迭代 
3. 根据 式 (5. 29) ， 在 时 刻 i 为 每 条 规则 选择 行为 ; 
4. 计算 式 (5.30) 中 的 全 局 连续 行为 U,(x,); 
5. 计算 式 (5.31) 中 的 O,(x,); 
6. 采取 全 局 行为 U,( x,) ， 并 进行 博弈 ; 
7. 获得 时 刻 ; + 1 的 回报 ,和 新 的 输入 *，，; 
8. 计算 式 (5.32) 中 的 


— 
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9. 计算 式 (5.33) 中 的 时 间 差 分 误差 se ，，; 


10. 对 于 1=1，…，M， 更 新 式 (5.34) 中 的 (l,a!) ; 
11. 结 


5.4 FACL 


在 FQL 算法 中 ， 必 须 基 于 玩家 连续 行为 空间 的 知识 来 定义 玩家 的 行为 集 4。 
假设 未 知行 为 空间 多 大 或 行为 空间 所 在 的 确切 区 域 ， 则 难以 确定 行为 集 。 此 外 ， 
当 行 为 空间 非常 庞大 时 ， 行 为 集中 的 元 素 个 数 也 过 于 庞大 。 相 应 地 ， 式 (5.34) 
中 7 函数 的 维度 将 非常 大 。 为 避免 上 述 情 
况 ， 本 节 中 介绍 一 种 FACL (执行 器 - 评 
价 器 模糊 学 习 ) 方法 。 

执行 器 -评价 器 学 习 系 统 包括 两 个 部 
分 : 一 个 是 为 每 个 状态 选择 最 佳 行为 ， 称 
为 执行 器 ; 另 一 个 是 估计 未 来 的 系统 性 能 
称 为 评价 器 。 图 5-7 给 出 了 执行 器 -评价 
器 学 习 系统 的 架构 。 该 执行 器 是 由 FIS 实 
现 的 自 适应 模糊 控制 器 。 同 时 ， 也 建议 将 
一 个 FIS 作为 评价 器 。 在 文献 [6，24 ] 
中 实现 了 自 适 应 模糊 评价 器 。 实 验 结果 表 
明文 献 [6] 中 的 自 适应 模糊 评价 器 比 文 
献 [19] 中 提出 的 神经 网 络 性 能 更 好 。 在 
本 节 所 介绍 的 具体 实现 中 ， 仅 使 得 模糊 系 
统 的 输出 参数 自 适 应 ， 而 在 文献 [6] 中 ， 模 糊 系 统 的 输入 和 输出 参数 都 是 自 适 
应 的 ， 这 是 一 个 更 为 复杂 的 自 适应 算法 。 增 强 信 号 7 ,1 用 于 更 新 自 适 应 控制 器 和 
自 适应 模糊 评价 器 的 输出 参数 ， 如 图 5-7 所 示 。 

执行 器 是 一 个 由 具有 恒定 后 件 的 TS 规则 实现 的 自 适应 模糊 控制 器 ， 则 模糊 
控制 器 的 输出 为 

















图 5-7 PITA -评价 器 学 习 系统 的 架构 。 
转载 自 文献 [13] ， 经 MIT 出 版 社 许可 











M 
u = > Du! (5.35) 
RP, w 是 执行 器 的 输出 参数 。 

为 促进 对 行为 空间 的 探索 ， 在 生成 的 控制 信号 u 中 增加 随机 白 噪声 (0, 
0) 。 执 行 器 w! 的 输出 参数 为 
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ðu 


Si (5. 36) 


why =w pai = ay 
式 中 ,Be (0，1) 为 执行 器 的 学 习 速 率 。 
为 避免 在 错误 方向 产生 较 大 的 自 适 应 步 长 芒 ] ， 仅 采用 式 (5.36) 中 预测 误 
差 A 的 和 探索 部 分 (wu', -u,)/o 的 符号 。 则 式 (5.36) 变 为 








w!,, =w! tpsa ta (5. 37) 
其 中 
Te") 
a == = 9! (5. 38) 
w 
之 (Tete) 


= i=l 
评价 器 的 作用 是 佑 计 连 续 状态 空间 上 的 值 函 数 . 值 耶 数 是 折扣 回报 的 预期 总 





V, = El Dyn} (5.39) 


AP, 为 当前 时 间 步 长 ;， ri 为 在 时 间 步 上 + k + 1 得 到 的 直接 回报 ; ye 
[0，1) 为 折扣 因数 。 
式 (5.39) 也 可 递归 表示 为 
V, =r, +YV, 41 (5. 40) 
从 执行 器 选择 每 个 行为 后 ， 评 价 器 对 新 状态 进行 评估 以 确定 是 优 于 还 是 差 于 
预期 。 对 于 图 5-7 中 的 评价 器 ， 假 定 采用 具有 恒定 后 件 的 TS 规则 !] 。 评 价 器 的 
输出 疼 是 对 了 的 近似 : 











= > og (5. 41) 
k=l 
IIF, t 表示 离散 时 间 步 长 ; 4 为 式 (5.25) 中 定义 为 c 的 评价 器 的 输出 参数 ; 
DP Ax (5.27) 定义 。 
根据 式 (5.40) 和 上 述 近 似 名 ， 可 产生 预测 误差 4 为 
A=r,.,+7 V4, -tb (5. 42) 
a, WAM RE APU. BERRA he A MB C', WA 
适应 率 为 





Ci =o) +ad — (5. 43) 


SUP, ae (0, 1) 为 评价 器 的 学 习 速 率 。 
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设 8<aw， 其 中 B 在 式 (5.36) 中 给 出 ,使 得 执行 器 的 收敛 慢 于 评价 器 ， 以 
防止 执行 器 不 稳定 [*]。 此 外 ,易于 计算 偏 导数 为 
n r r 
av Meta) 
ag! = um i 
之 (TIe) ) 
ral “Lal 


FACL 算法 如 算法 5.2 所 示 。 
算法 5.2 FACL 算法 

L 对 于 1 = 1，…， M, 初始 化 了 =0、Y!=0 UK w =0。 
. UGE 

3. 得 到 输入 x，。 

4. 计算 式 (5.35) 中 执行 器 的 输出 。 

5. 计算 式 (5.41) 中 评价 器 久 的 输出 。 

6. 运行 当前 时 间 步 的 博弈 。 

7. 获得 回报 7 ,1 和 新 输入 x, ,1 。 

8. 根据 式 (5.41) 计算 久 ，。 

9. 计算 式 (5.42) 中 的 预测 误差 A。 


10. 更 新 式 (5.43) PW, Ast (5.37) PHI wlio 
11. 结 





=p (5. 44) 


N 














5.5 疯狂 司机 微分 博弈 






































DG (微分 博弈 ) 5 是 一 种 连续 时 间 域 动态 博弈 。 疯 狂 司 机 微分 博弈 是 微分 
填 弈 的 一 种 类 型 。 最 初 是 由 Isaacs 在 1954 年 提出 。 一 个 或 一 群 追捕 者 试图 在 最 
短 时 间 捕 获 一 个 或 一 群 逃跑 者 ， 而 逃跑 者 试图 避免 被 捕获 。 

当 逃 跑 考 处 于 追捕 者 的 捕获 范围 ( 捕获 或 终止 时 间 ) 内 时 或 游戏 时 间 超 过 
lmin (逃跑 ) 时 ,游戏 终止 。 玩 家 评估 当前 状态 ， 然 后 选择 其 下 一 行为 。 玩 家 
的 策略 不 会 共享 ， 因 此 每 个 玩家 都 不 知道 另 一 玩家 的 下 一 选择 行为 。 在 此 假设 环 
境 是 无 障碍 的 。 

在 逃跑 者 - 追捕 者 微分 博弈 中 是 否 存在 最 优 策略 取决 于 Isaacs 条 件 '*-*3] 。 
文献 [26, 29] 给 出 了 逃跑 者 - 追捕 者 微分 博弈 中 最 优 策 略 的 正式 结果 。 接 下 
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来 讨论 疯狂 司机 博弈 及 其 Isaacs AF 











在 本 模型 中 ， 狗 狂 司 机 博弈 的 玩家 是 自主 机 器 人 。 司 机 GEMA P) 是 一 个 
汽车 形式 的 移动 机 器 人 ， 而 行人 (逃跑 者 下 ) 是 一 个 在 任意 方向 瞬间 移动 的 点 。 
在 Isaacs 的 疯狂 司机 微分 博弈 中 ,追捕 者 目的 是 在 最 短 时 间 内 捕获 逃跑 者 。 而 逃 




















跑 考 的 目标 是 使 得 捕获 时 间 最 大 化 并 避免 捕获 。 





假设 玩家 以 恒定 前 进 速度 w; 移动。 追捕 者 速度 大 于 逃跑 者 的 速度 ， 
者 可 以 在 任意 方向 上 移动 。 追 捕 者 的 转向 角 给 定 为 -ww Su Su, 














u, 为 最 大 转向 角 。 最 大 转向 角 取 决 于 下 式 定义 的 最 小 转弯 半径 及 : 
_ Ly 
P tan( uy) 


式 中 ， ie LAA 
追捕 者 了 和 逃跑 者 下 的 动态 方程 为 026] 


x, =w, cos( 0,) 
g -2 


g=] 


x, =w, cos(u,) 


Y, =w, sin(u, ) 


RP, (x, y), w 和 9 分别 表示 位 置 、 速 度 和 方向 ， 如 图 5-8 所 示 。 











yh = 
e 
_4{Ye-Yp 
E tan =a 
a (Xe, Ye) 
a 
Pa 
a 
a 
Wp Bes 
SA 
ad 
L aye, 
1| Ye—-Yp 
7 N 
Yp 
x X 





p 
图 5-8 疯狂 司机 博弈 问题 模型 。 转 载 自 文献 [13], © B, Al Faiya 
追捕 者 和 逃跑 者 之 间 的 角度 差 为 
b=tan-! (=> ) 一 0 


Xe 一 %p 


但 逃跑 
其 中 ， 


(5.45) 


(5.46) 


(5.47) 
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追捕 者 和 逃跑 者 之 间 的 相对 距离 为 
d= V(x -x0) +(e -¥p)? (5. 48) 
在 距离 ds At, 成功 捕 获 。 
在 文献 [26] (232 ~ 237 页 ) HH, Isaacs 提出 了 追捕 者 成 功 捕获 逃跑 者 的 条 
件 。 假设 追捕 者 的 速度 大 于 逃跑 者 ， 则 捕获 条 件 为 
WR,> VMI-y +sin™'y-1 (5. 49) 
RP, V R, 是 捕获 半径 与 追捕 者 最 小 转弯 半径 之 比 ; y = w。/w, <1 是 逃跑 者 速 
度 与 追捕 者 速度 之 比 。 
若 不 等 式 (5.49) 符号 相反 ， 则 逃跑 者 玉 必 然 从 追捕 者 P 中 逃脱 。 
根据 式 (5.49) 中 的 捕获 条 件 和 Isaacs 的 解 ， 逃 跑 者 的 最 优 策略 可 通过 求解 
以 下 两 个 问题 获得 [26.29.30] : 
1) 在 逃跑 者 足够 远离 追捕 者 时 ， 逃 跑 者 的 控制 策略 是 使 得 逃跑 者 和 追捕 者 
之 间 的 距离 最 大 化 : 














map eee (5. 50) 


Xe 一 Xp 
2) 当 追 捕 者 和 逃跑 者 之 间 的 距离 4<R, 时 ， 逃 跑 者 采用 第 二 种 控制 策略 来 
避免 被 捕获 。 追 捕 者 的 转向 不 能 超过 最 小 转弯 半径 R,。 逃 跑 者 可 在 其 逃跑 的 法 
线 方向 上 急 转 弯 ， 进 入 追捕 者 的 非 完整 约束 区 域 。 如 图 5-9 所 示 ， 一 个 非 完整 的 
玩家 限于 只 能 沿 着 有 界 曲率 路 径 移动 ， 如 在 式 (5.45) 中 给 定 的 追捕 者 最 小 转 
弯 半 径 只 , 。 逃 跑 者 的 第 二 种 控制 策略 为 
ue =O, 1/2 (5.51) 








图 5-9 AEA IER AH Me ek REN ATE KX, 
转载 自 文 献 [13], ©B, Al Faiya 
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追捕 者 的 最 优 控制 策略 是 使 得 与 逃跑 者 之 间 的 距离 最 小 并 在 最 短 时 间 内 捕获 
逃跑 者 。 追 捕 者 控制 转向 角 如 下 [329,31] : 
Uy =tan~! (=) -0 


Xe 一 Ap 


(5.52) 


P 


5.6 ”模糊 控制 器 结构 











在 此 ， 两 个 输入 变量 (模糊 变量 ) 经 模糊 控制 器 后 生成 一 个 输出 。 追 捕 者 
的 输入 是 角度 差 p 及 其 变化 率 。 逃 跑 者 的 输入 是 角度 差 p 和 距离 4。 对 于 逃跑 
者 的 模糊 控制 器 ， 增 加 距离 作为 输入 。 原 因 是 逃跑 者 具有 比 追 捕 者 更 高 的 机 动 
性 ， 逃 跑 者 和 追捕 者 之 间 的 距离 对 于 逃跑 者 决定 是 否 需要 急 转 弯 至 关 重 要 。 

为 简单 起 见 以 及 避免 维 数 灾难 问题 ， 对 于 每 个 输入 变量 设置 2 个 输入 和 3 个 
模糊 集 来 构建 控制 器 。 追 捕 者 的 角度 差 $ 及 其 变化 率 模糊 集 均 为 负 (N), F 
(Z) AME (P) 。 逃 跑 者 的 角度 模糊 集 为 负 (N) F (Z) ME (P) ， 而 距离 模 
WREN (F), W (C) 和 非常 接近 (V) 。 

在 此 采用 零 阶 TS 模糊 推理 系统 (FIS), TS FIS H IF -THEN 模糊 规则 和 
模糊 推理 机 组 成 。 给 定 模糊 变量 x; 及 其 对 应 的 模糊 集 4, 和 B, IF -THEN 模糊 规 
则 如 下 : 











Pi:IF x, is A, AND x, is B, THEN f, = K' (5. 53) 

式 中 ,x 表示 追捕 者 的 $9 和 $$ 以 及 逃跑 者 的 和 4d; fi 为 规则 17 的 输出 函数 ;，K/ 
为 模糊 规则 的 后 件 参数 。 

每 个 输入 具有 3 个 隶属 函数 ， 可 产生 3? = 9 条 规则 。 高 斯 隶属 函数 给 定 为 


r=! 2 
Ma, (%;) = exp ( 一 ( :) ) (5. 54) 
高 斯 隶属 函数 的 参数 是 均值 。 和 标准 方差 r 。 在 此 ， 采 用 强化 学 习 算 法 来 学 
B 


KAS% El 5-10a 和 b 给 出 了 调节 前 的 初始 隶属 函数 。 
转向 角 w 是 经 加 权 平 均 去 模糊 化 后 产生 的 输出 ， 表 示 为 


> ( (Tacs )x') 
> (Tec ) 


l=1 
利用 规则 表 来 表示 模糊 规则 。 表 5. 2 和 表 5. 3 分 别 给 出 了 学 习 之 前 追捕 者 和 
逃跑 者 的 模糊 决策 表 与 输出 常数 天。 









































习 隶 








(5.55) 
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1 f L 
-1 -0.8 -0.6 -0.4 -0.2 





002 04 06 08 4 -1 -08-06-04-02 0 02040608 1 
5p 5p 



























































-1 08-06-04 -02 i 02 04 06 08 1 0 01 02 03 04 05 06 07 08 09 1 
P 5 d 
图 5-10 ”训练 之 前 的 隶属 函数 。 转 载 自 文献 [13], OB, Al Faiya 
a) 训练 之 前 的 追捕 者 隶属 函数 b) 训练 之 前 的 逃跑 者 隶属 函数 
表 5.2 学 习 之 前 的 追捕 者 模糊 决策 表 
$ 
由 N Z P 
N -0.5 -0.25 0.0 
Z -0.25 0.0 0. 25 
P 0.0 0.25 0.5 
表 5.3 学 习 之 前 的 逃跑 者 模糊 决策 表 
d 
vc cs FA 
中 
N - 7/2 -7/2 -7/4 
Z - 7/2 7/2 0.0 
P 7/2 7/2 7/4 











第 5 章 the i 131 





5.7 Q (A) 学 习 模 糊 推理 系统 





强化 学 习 问 题 中 的 学 习 智能 体 与 环境 交互 并 在 每 个 时 间 步 ;得 到 回报 ro 
能 体 的 目标 是 最 大 化 长 期 折扣 回报 RP! : 


D Taa (5.56) 


WP, (O<y<1) 为 折扣 因数 ; ; 为 当前 时 间 步 ， 了 是 博弈 终止 时 间 。 
一 种 常用 的 强化 学 习 算 法 是 0 学 习 算 法 。0 学 习 算 法 估计 行为 - 值 函数 0 
(s, a) 来 得 到 最 优 的 期 望 回 报 。 行 为 - 值 函数 给 定 为 


Q(s,a) | 5 = SG, =a} (5. 57) 


Desouky 和 Schwartz [3 提出 了 Q (A) 学 习 模 糊 推理 系统 (QLFIS ) 。 在 文献 
[31] 中 ，QLFIS 成 功 应 用 于 训练 追捕 者 在 最 短 时 间 内 捕获 逃跑 者 。 在 模型 中 采 
用 Desouky 的 QLFIS 算法 来 训练 逃跑 者 和 追捕 者 。 学 习 系 统 的 结构 如 图 5 -11 所 
示 。Q (A) 学 习 算法 用 于 调节 模糊 逻辑 控制 器 (FLC) 的 输入 和 输出 参数 ， 以 
及 由 FIS SE SUA eR Vea, SCHR [31] F, Desouky 推导 并 给 出 学 习 过 程 中 的 



































更 新 规则 。 
如 图 5-11 所 示 ，TD 误差 6, 给 定 为 
6,=Tr1 +Y maxQ, (5,41 á) — 0,(s,,a,) (5. 58) 
No 
\ + 
— o pic Æ LS Un | 系统 












































ve 61| mi1+max Q(Su1,U’) 
u’ 
£ 
FIS Q(s,u) = es 


图 5-11 高 斯 白 噪 声 MM (0, 03) 作为 扩展 机 制 的 学 习 系 统 结构 。 
转载 自 文 献 [13], © B, Al Faiya 


在 式 (5.57) 应 用 资格 迹 e,。Q(A) 学 习 算法 的 行为 - 值 函 数 更 新 为 
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O44 S50) =Q,(s,,4,) +06 ,e, (5. 59) 
式 中 ，(0 <aSl) 为 学 习 速 率 ， 且 替换 的 资格 迹 表 示 为 
ð Sia, 
e, =yÀe,_ı + Me a) (5.60) 


给 定 模 糊 系 统 中 需 调节 的 参数 为 = [Keo]", SAK [31] 定义 的 FIS 更 新 
规则 为 


















































9 (Spot 1 
Eus 01) séns (1) #18, (yer + ee | (5.61) 
FLC 的 更 新 规则 定义 为 
ðu Un =u 
Src(t +1) = eric) F ( T, }} one) 
| ðQ, (Bes ui) | È o, 
2 (K' - Q,( )) 24 i) 
9Q,(s,,u,) aQ, (s, ,u,) en w, a — 
0 rs ~ ðo! 7 2 {71 (a7) (5. 63) 
l E Ss u Xx: 一 cl 2 
Q,(s,,u,) (K - Q,(s,, 9,28 i i) 
E oc | L È o (a;) 
pau] f È o, 
OK! 
g 3 (K! - u) y 2(x; - cl)? 
u g l 1y\3 
ee aot È o (i) (5. 64) 
ðu (K! =i), 2s - ci) 
Lai} | > ,01 (ai)? 
AP, FIS 的 学 习 速率 为 六 ;FLC 的 学 习 速 率 为 上 。 
规则 1 的 触发 强度 w, 和 归 一 化 触发 强度 w, 定义 如 下 [0 ; 
2 x; 一 cl 2 
w; = Tex (- ( ) ) (5. 65) 
= äi 
w; = (5.66) 
Yo, 














仿真 中 所 采用 的 学 习 算法 如 算法 5. 3 所 示 ， 其 中 ，M 为 博弈 (JER) 次 数 ， 
N 为 时 间 步 个 数 。 
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算法 5.3 QLFIS 算法 
1. RJR KZ] 5. 10 
2. K's # 5.2 #5. 3 





3. O(s, u) <0 | FIS Q 值 | 
4. e0 [FIS 的 资格 迹 } 


5. y—0. 95; A0.9; at 二 0.08 
6. for i<—-1 to M do 


i 
7.n— (0.1 -0.09 wW 


8. ¢— (0.01 -0. 009 y 


9. (xps yp) (0, 0) 1 追捕 器 的 初始 位 置 
10. 随机 初始 化 (xe, Ye) 1 逃跑 者 的 初始 位 置 | 


11. 更 新 s,=($, $) 
12. 更 新 s。 = ($9, d) 


13. u— IÈ (5. 55) | 对 于 追捕 者 和 逃跑 者 | 
14. for j*—1 to N do 
15. u,<u +No | 对 于 追捕 者 和 逃跑 者 ! 


16. Q(s,, u) sh (5.59) 

17. 进行 博弈 游戏 ， 观 测 下 一 状态 ， 和 s: 以 及 回报 > 
18. Q(s,,,, wu’) I} (5.55) 

19.5< 式 (5.58) 

















20. e, 二 式 (5. 60) 1 对 于 FIS} 
21. €(t +1) pyg3h (5. 61) | 更 新 FIS 输入 和 输出 参数 | 
22. E(t +1)mco 式 (5. 62) | 更 新 FLC 输入 和 输出 参数 | 
23. $,<—-S,4,3 usu’ 

24. 结 

25. 结 


5.8 疯狂 司机 博弈 的 仿真 结果 











在 不 同 博弈 次 数 下 对 系统 进行 仿真 。 时 间 步 个 数 为 600， 采 样 时 间 为 0. 1s。 
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追捕 者 的 速度 是 逃跑 者 的 两 倍 ， 即 w, = 2m/s 和 w, = lm/s。 追捕 者 的 轴 距 
L = 0.3m。 在 每 次 博弈 中 ， 随 机 初始 化 逃跑 者 的 位 置 。 追 捕 者 的 初始 位 置 位 于 
原点 (x, Yp) = (0, 0), 追捕 器 的 初始 方向 为 8 = 0rad。 在 此 采用 式 
(5.46) 的 追捕 者 和 逃跑 者 的 运动 方程 。 

若 追捕 者 捕获 逃跑 者 或 时 间 超 过 60s (逃脱 ) ， 则 博弈 游戏 结束 。 捕 获 半径 


L 
为 £<0. 15m, ERAEN — "ELS 。 追 捕 者 的 最 大 转向 角 为 -0. Srad < 
u, <0. 5rad , H. R, =0.5491m, 给 定 系 统 参 数 并 根据 Isaacs 的 捕获 条 件 ， 存 在 


p 
一 个 逃跑 者 避免 捕获 的 策略 。 

在 此 采用 算法 5. 3 中 给 出 的 学 习 算 法 进行 博弈 仿真 。 学 习 系 统 的 初始 条 件 在 
算法 5.3 的 步骤 1 ~5 中 给 定 。 为 评估 逃跑 者 的 学 习 效率 ， 初 始 化 追捕 者 的 参数 ， 
使 得 追捕 者 可 以 在 学 习 之 前 根据 其 初始 策略 捕获 逃跑 者 。 对 两 个 玩家 采用 相同 的 
学 习 算 法 QLFIS, 

在 学 习 开始 时 ， 追 捕 者 总 是 会 捕捉 到 逃跑 者 ， 如 图 5-12 所 示 。 经 500 次 博 
FJ, 如 图 5-13 所 示 ， 逃 跑 者 增 大 了 捕获 时 间 并 采取 成 功 行为 。 图 5-14 和 表 
5.4 表明 逃跑 者 在 1000 次 博弈 学 习 后 可 成 功 逃 脱 妃 捕 者 的 追捕 。 当 距离 dR, 
时 ， 逃 跑 者 急 转 弯 。 逃 跑 者 通过 改变 方向 并 进入 追捕 者 的 转弯 半径 约束 来 避免 捕 
获 。 经 1000 次 博弈 后 学 习 者 的 模糊 后 件 参 数 K' 见 表 5.5 MK 5. 6。 
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图 5-12 100 次 博弈 学 习 后 追捕 者 捕获 逃跑 者 。 转 载 自 文献 [13], OB, Al Faiya 
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图 5-13 500 次 博弈 学 习 后 逃跑 者 增 大 捕获 时 间 。 转 载 自 文 献 [13], © B, Al Faiya 
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0 10 20 30 40 50 60 70 
图 5-14 1000 次 博弈 学 习 后 逃跑 者 逃脱 追捕 。 转 载 自 文献 [13], OB, Al Faiya 




















为 便于 比较 ， 给 出 5. 5 节 中 所 述 的 理论 解 。 给 定 系 统 参数 并 根据 Isaacs 的 捕 
获 条 件 ， 在 -0. 5rad<u, <0. Srad 时 存在 一 个 逃跑 者 避免 捕获 的 策略 。 图 5- 15 
表明 ， 逃跑 者 通过 急 转 容 可 逃脱 追捕 。 然 后 ， 将 追捕 者 的 最 大 转向 角 增 大 到 
-0.7radSu, <0.7rad。 在 此 情况 下 ， 满足 捕 获 条 件 。 追 捕 者 可 在 时 间 = 


max 


11. 90s 处 捕获 逃跑 者 ， 如 图 5- 16 所 示 。 
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表 5.4 不 同 博弈 学 习 次 数 的 捕获 时 间 
博弈 博 奕 次 数 捕获 时 间 /s 
理论 值 一 >60 (逃脱 ) 
100 12. 90 
经 QLFIS 学 习 算 法 学 习 500 25. 10 
1000 >60 (逃脱 ) 
表 5.5 经 1000 次 博弈 学 习 后 逃跑 者 的 模糊 决策 表 
d 
VC CL FE 
中 
N —1.5848 -1.5782 -0. 4074 
Z -1.5758 1. 5526 0. 0331 
P 1. 5930 1. 5794 0. 2626 
表 5.6 41000 次 博弈 学 习 后 追捕 者 的 模糊 决策 表 
9 N Z P 
中 
N -0. 4763 -0. 2503 -0. 0075 
Z -0. 2413 0. 0023 0. 1522 
P 一 0. 0046 0. 2650 0. 4777 
35 
30 J 
25+ | 
20 30 40 50 60 
图 5-15 uu, =0.Srad 时 逃跑 者 逃脱 追捕 。 转 载 自 文献 [13], © B, Al Faiya 
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图 5-16 u, =0.7rad 时 追捕 者 捕获 逃跑 者 。 
转载 自 文 献 [13], © B, Al Faiya 

















5.9 双 车 追捕 者 - 逃跑 者 博弈 中 的 学 习 算法 


追捕 者 - 逃跑 者 模型 如 图 5-17 所 示 。 追 捕 者 /逃跑 者 机 絮 人 的 运动 方程 
为 [29] 


a =v; cos(0;) 
Yi =v; sin(0;) (5.67) 
= 

i= 7 tan(u;) 


SUP, “i” 是 追捕 者 “p” 和 逃跑 者 “e”; (xi, yi) 是 机 器 人 的 位 置 ; 90, 是 方 
向 ; 1; 是 机 器 人 的 轴 距 ， u 是 转向 角 ，u e [ -ww u J; v; 是 由 转向 角 控制 的 
机 器 人 的 速度 ， 为 避免 滑动 ， 定 义 为 
v = Vi, 
式 中 ，V， 是 机 器 人 的 最 大 速度 。 
设置 场景 是 追捕 者 快 于 逃跑 者 ， 即 VY > V。 ， 但 同时 妃 捕 者 的 机 动 性 差 于 


max © ma 


C08 (1; ) (5. 68) 
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图 5-17 WER., PRAX [13], OB, A Faiya 


“may 


5 趋 于 零 ， 其 中 ， 角 度 差 8 计算 为 
6=tan-! (2—") -0, (5. 69) 
e T Ap 
逃跑 者 的 控制 策略 是 通过 以 下 两 种 方式 使 得 追捕 者 与 逃跑 者 之 间距 离 最 大 
化 [29,32] : 
1) 若 追 捕 者 和 逃跑 者 之 间 的 距离 大 于 特定 距离 4， 则 逃跑 者 的 控制 策略 是 
u, =tan-! (=) -a (5.70) 


e ip 
2) 若 追 捕 者 和 逃跑 者 之 间 的 距离 小 于 特定 距离 4， 则 逃跑 者 可 采用 更 高 的 
机 动 性 。 因 此 逃跑 者 的 控制 策略 是 
u,=(0,+7) -0 (5.71) 
上 述 策略 将 提高 逃跑 者 的 机 动 性 ， 以 使 得 追捕 者 更 加 难以 捕获 逃跑 者 (但 
不 是 不 可 能 ) 。 在 此 选择 该 策略 来 反映 所 提 方 法 对 系统 学 习 的 效果 。 与 所 提 方 法 
相 比 ， 追 捕 者 的 经 典 控 制 策略 定义 为 








= es :0< - Ws 
E a <s< 
Uy = ô i SOSu, (5. 72) 
up :0 > Uppa 


式 中 , 6 由 式 (5.69) 定义 。 
当 追 捕 者 和 和 逃跑 者 之 间 的 距离 小 于 特定 值 上 时 ， 成 功 捕获 。 该 特定 值 称 为 捕 
提 半 径 ， 定 义 为 
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b= V(x x) +e- Yp) (5.73) 


5.10 ” 双 车 博弈 仿真 














追捕 者 的 初始 位 置 位 于 原点 (p, yp) = 〈0，0) ， 而 在 每 次 博弈 中 随机 初 
始 化 逃跑 者 的 位 置 。 追 捕 者 的 初始 方向 和 初始 位 置 与 疯狂 司机 博弈 中 的 相同 。 逃 
跑 者 的 初始 方向 为 9. = 0rad。 追 捕 者 和 逃跑 者 的 运动 学 方程 由 式 (5.66) 给 出 。 

同 理 ， 初 始 化 游戏 使 得 追捕 者 能 够 捕获 逃跑 者 ， 如 图 5- 18 所 示 。 在 图 5- 19 
中 经 过 500 次 博弈 后 ， 逃 跑 者 增 大 捕获 时 间 并 成 功 学 习 策略 。 图 5-20 ME 5.7 
表明 经 过 大 约 1300 次 博弈 后 逃跑 者 学 会 逃离 逃脱 追捕 。 当 距离 vs 及, 时， 逃跑 
者 急 转 弯 进 入 追捕 者 的 转弯 半径 约束 。 
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AI 5-18 100 次 博弈 学 习 后 追捕 者 捕获 逃跑 者 。 转 载 自 文献 [13], © B, Al Faiya 
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图 5-19 500 次 博弈 学 习 后 逃跑 者 增 大 捕获 时 间 。 转 载 自 文献 [13], © B, Al Faiya 
图 5-21 和 图 5-22 给 出 了 逃跑 者 和 追捕 者 学 习 后 的 隶属 函数 。 训 练 后 的 后 件 
参数 K WLS. 8 和 表 5. 9。 
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图 5-20 1300 次 博弈 学 习 后 逃跑 者 学 会 逃脱 追捕 。 转 载 自 文 献 [13], ©B, Al Faiya 
a) 1300 次 博弈 学 习 后 逃跑 者 学 会 逃脱 追捕 b) 图 5-20a 的 局 部 放大 























无 资格 迹 现在 采用 无 资格 迹 的 0 学 习 算法 。 在 每 次 博弈 中 ， 记 录 捕 获 时 刻 ， 
并 绘制 捕获 时 刻 与 500 次 博弈 的 关系 。 然 后 进行 10 次 仿真 运行 并 计算 平均 结 
图 5-23 中 的 实 线 是 采用 O(A ) 学 习 的 结果 。 而 虚线 是 采用 @ 学 习 的 结果 。 与 0 
学 习 相 比 ， 学 习 速 度 类 似 于 具有 资格 迹 的 情况 。 当 采用 OFIN, MRA 
过 程 的 收敛 速度 并 没有 显著 改善 。 
表 5.7 双 车 博弈 中 不 同 博弈 学 习 次 数 时 的 捕获 时 间 


















































博弈 博弈 学 习 次 数 捕获 时 间 7./s 
理论 值 一 >60 (逃跑 ) 
100 13.70 
经 QLFIS 学 习 后 500 27. 50 
1300 >60 (逃跑 ) 
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图 5-21 训练 后 的 追捕 者 隶属 函数 。 转 载 自 文献 [13], ©B, Al Faiya 





a) 角度 差 4 b) 角度 差 变化 率 由 


表 5.8 经 学 习 后 逃跑 者 的 模糊 决策 表 和 输出 常数 K 




















d 
V Cc F 
N -1.591 -1.572 一 0. 337 
Z -1.613 1. 571 0. 146 
P 1. 537 1. 573 0. 429 
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+X 
lek 
E 
1 08 0.6 0.4 0.2 0 02 04 0.6 0.8 1 
输入 变量 1 
a) 
Ex 
we 
ie 
0 01 02 03 0.4 05 06 07 08 0.9 1 
输入 变量 2 
b) 
Al5-22 WAJE ve AS ea, FARA SCM [13], ©B, Al Faiya 
a) AEP b) 追捕 者 和 逃跑 者 之 间 的 距离 d 
表 5.9 经 学 习 后 追捕 者 的 模糊 决策 表 和 输出 常数 K! 
由 
N Z P 
中 

N 一 0. 4660 —0. 2512 一 0. 0005 

Z 一 0. 3507 0. 0274 0. 1765 

P 一 0. 0124 0. 2615 0. 4830 
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图 5-23 采用 资格 迹 的 双 车 博弈 中 的 捕获 时 间 。 转 载 自 文献 [13]，@ B，Al Faiya 


























本 节 介 绍 了 模糊 Q (A) 学 习 和 模糊 O 学 习 在 追捕 者 -逃跑 者 微分 博 穿 中 的 
应 用 。 重 点 研究 了 模糊 控制 器 、 学 习 过 程 收银 性 和 学 习 速 率 。 然 后 采用 QLFIS 
方法 同时 训练 逃跑 者 和 追捕 者 。 训 练 后 的 逃跑 者 学 会 通过 急 转 弯 (极端 策 略 ) 
以 最 大 化 捕获 时 间 ， 且 如 果 可 能 会 避免 被 捕获 。 狗 狂 司 机 博弈 和 双 车 博弈 的 仿真 
结果 表明 逃跑 者 成 功 学 会 逃脱 追捕 。 在 采用 Q (A) 学 习 中 使 用 资格 迹 并 没有 显 
著 提 高 学 习 速 率 。 此 外 ， 每 次 博弈 中 使 用 资格 迹 还 需要 更 多 计算 。 


5.11 疆土 防御 微分 博弈 










































































本 闻 将 模糊 强化 学 习 算法 应 用 于 疆土 防御 微分 博弈 ， 并 使 得 防御 者 通过 对 抗 
入 侵 者 来 学 习 其 纳什 均衡 策略 。 为 加 快 防御 者 的 学 习 进 程 ， 在 博弈 游戏 中 为 防御 
者 设计 了 一 个 形成 回报 函数 。 此 外 ， 将 相同 的 FACL 算法 和 形成 回报 函数 应 用 于 
包括 两 个 防御 者 和 一 个 人 侵 者 的 3 人 又 土 防御 微分 博弈 。 通 过 仿真 运行 来 测试 这 
两 种 情况 下 防御 者 的 学 习性 能 。 

在 强化 学 习 中 ， 强 化 学 习 者 可 能 会 遇 到 时 间 信 用 分 配 问题 ， 其 中 玩家 回报 延 
迟 或 在 每 次 博弈 游 戏 结束 时 才 获 得 。 当 任务 具有 非常 大 的 状态 空间 或 连续 状态 空 
间 时 ， 延 迟 回 报 将 极 大 减缓 学 习 过 程 。 对 于 疆土 防御 博弈 ， 博 弈 游戏 过 程 中 得 到 
的 唯一 回报 是 博弈 游戏 结束 时 入侵 者 和 领土 之 间 的 距离 。 因 此 ， 玩 家 难以 根据 这 
种 大 大 延迟 的 回报 来 学 习 其 最 优 策略 。 为 解决 时 间 信 用 分 配 问 题 并 加 快 学 习 过 
程 ， 可 对 该 学 习 问题 采用 回报 形成 !31 。 形 成 可 在 强化 学 习 中 通过 设计 中 间 形 成 
回报 作为 对 学 习 智 能 体 的 信息 强化 信号 ， 并 对 最 佳 行为 具有 良好 估计 的 智能 体 产 
生 回 报 来 实现 [3,34,53]。 回 报 形成 的 思想 是 提供 一 个 额外 回报 作为 基于 问题 知识 
的 一 个 提示 ， 以 提高 智能 体 的 性 能 ;31 。 
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Isaacs 的 疆土 防御 博弈 是 一 种 双人 零 和 微分 博弈 。 入 侵 者 的 目标 是 到 达 领 

土 。 如 果 和 侵 者 无 法 到 达 领 土 ， 至 少 也 移动 到 尽 可 能 接近 领土 的 地 方 f2] 。 相 应 

地 ， 防 御 者 试图 在 尽 可 能 远离 领土 的 地 方 拦截 入 侵 者 5 。 在 此 入 侵 者 记 为 IT， 防 
御 者 记 为 D， 如 图 5-24 所 示 。 人 入侵 者 工 和 防御 者 D 的 动态 性 定义 为 

xp(t) =sinOy, yp(t) =cosOp (5. 74) 


x(t) =sinO,, yi(t) = cos0; (5.75) 
-TS ST, -TS S57 
式 中 ，b 为 防御 者 的 策略 ; 0 AARE RE 
为 简化 问题 ， 建 立 一 个 以 防御 者 位 置 为 原点 、 入 侵 者 位 置 方 向 为 y' 轴 的 相对 
坐标 系 ， 如 图 5-24 所 示 。 领 土 由 一 个 T(xi，y1)〉 为 中 心 ， 半 径 为 R 的 圆 表示 。 
与 原始 坐标 系 中 的 和 和 bi 不 同 ， 在 此 定义 up 为 相对 坐标 系 中 防御 者 的 策略 ， 而 
ul 为 人 侵 者 的 策略 。 
该 博弈 游戏 的 回报 定义 为 
Pi, (up uy) = f(xy (ip) — 2)? + (yi) -yr) -R (5. 76) 
式 中 ,表示 玩家 的 初始 位 置 ; RR 为 目标 半径 ; 5 为 终止 时 间 。 
终止 时 间 是 指 入 侵 者 到 达 领 土 或 入 侵 者 在 到 达 领 土 之 前 被 拦截 的 时 间 。 上 述 
回报 反映 了 两 个 玩家 从 各 自 初始 位 置 开 始 并 随后 采用 各 自 固定 策略 wp 和 ww 后， 
入 侵 者 向 领土 移动 的 接近 程度 。 在 该 博弈 游戏 中 ， 和 侵 者 试图 最 小 化 回报 己 ， 而 
防御 者 试图 使 之 最 大 化 。 
在 图 5-24 中 ， 绘 制 ID RAM y4 
平分 线 BC。 根 据 式 (5.74) 和 式 
(5.75) 中 玩家 的 动态 性 ， 玩 家 
可 以 在 任何 方向 上 以 相同 速度 立 
刻 移动 。 因 此 ，BC 线 上 方 的 区 域 
是 入 侵 者 可 以 在 防御 者 之 前 到 达 
的 区 域 ， 而 BC 线 下 方 的 区 域 是 





















































防御 者 可 以 在 人 侵 者 之 前 到 达 的 S 
区 域 。 通 过 了 点 对 BC 平分 线 给 图 5-24 ”疆土 防御 微分 博弈。 
制 一 条 垂直 线 TO。 则 0 点 是 BC 转载 自 文献 [18], © X. Lu 


线 上 距离 领土 了 最 近 的 点 。 从 初始 位 置 (I，D) 开始 ， 如 果 两 个 玩家 都 采用 各 
自 的 最 优 策略 ， 则 入 侵 者 只 能 到 达 0 点 作为 其 最 接近 领土 的 位 置 。 
ICN BC 线 和 领土 之 间 的 最 短 距离 。 在 此 ， 博 弈 值 定义 为 

P(uġ ,ur )= || TO -R (5.77) 
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AF, up 和 wr 分 别 是 玩家 的 纳什 均衡 策略 : 


= 
uč = LDO (5. 78) 
— 
uy = ZIO (5.79) 


5.12 疆土 防御 微分 博弈 中 的 形成 回报 


在 强化 学 习 中 ， 玩 家 可 能 会 遇 到 时 间 信 用 分 配 问 题 ， 即 只 有 在 经 过 一 系列 行 
为 之 后 才能 得 到 回报 。 例 如 ， 足球 比赛 中 的 球员 只 有 在 进 球 得 分 后 才能 得 到 回 
报 。 而 这 会 导致 难以 在 很 长 的 行为 序列 中 对 每 个 行为 分 配 信 用 或 惩罚 。 在 此 定义 
最 终 回报 是 只 有 在 终止 时 间 得 到 的 回报 。 如 果 强 化 学 习 问 题 是 在 仅 具有 一 个 最 终 
回报 的 连续 域 中 ， 则 玩家 几乎 不 可 能 在 除 最 终 回报 之 外 没有 任何 信息 的 情况 下 
学 习 。 

在 疆土 防御 微分 博弈 中 ， 只 有 当 入 侵 者 到 达 领 土 或 被 防御 者 拦截 时 才 会 得 到 
回报 。 根 据 式 (5.76) 中 给 定 的 回报 函数 ， 防 御 者 的 最 终 回报 定义 为 

Distm ”防御 者 捕获 入 侵 者 
P” lo 入 侵 者 到 达 领 土 
式 中 ，Distm 是 指 在 终止 时 间 入 侵 者 和 领土 之 间 的 距离 。 

由 于 在 博弈 游戏 中 只 有 最 终 回报 ， 防 御 者 的 学 习 过 程 非常 缓慢 。 为 解决 该 问 
题 ， 可 采用 一 个 形成 回报 函数 来 补偿 防御 者 缺少 的 直接 回报 。 

形成 回报 的 目的 是 通过 在 学 习 过 程 提供 一 个 额外 回报 来 提高 玩家 的 学 习性 
能 。 但 问题 是 如 何 为 不 同类 型 的 博弈 游戏 设计 良好 的 形成 回报 函数 。 在 追捕 者 - 
逃跑 者 博弈 中 ， 直 接 回报 定义 为 

ml1=Distp(t) — Distip (t+1) (5. 81) 
IGF, Distp(t) 表示 时 刻 上 追捕 者 和 逃跑 者 之 间 的 距离 。 

可 认为 上 述 直 接 回 报 是 疆土 防御 微分 博弈 中 的 形成 回报 函数 。 然 而 ， 式 
(5. 81) 中 的 直接 回报 并 不 是 本 博弈 游戏 中 的 最 佳 形 成 回报 函数 。 追 捕 者 的 目标 
是 在 每 个 时 间 步 最 小 化 追捕 者 和 逃跑 者 之 间 的 距离 。 而 与 追捕 者 不 同 ， 疆 土 防御 
微分 博弈 中 防御 者 的 目标 是 使 得 入 侵 者 远离 领土 。 由 于 防御 者 和 入 侵 者 具有 相同 
的 速度 ， 如 果 防 御 者 一 直 追 赶 人 侵 者 ， 则 防御 者 可 能 无 法 守卫 领土 。 

基于 上 述 分 析 和 博弈 游戏 的 特点 ， 为 防御 者 设计 以 下 形成 回报 冰 数 : 

Trai =yr(t) ~-yT(t+1) (5. 82) 
式 中 ，y4(t) 和 y1(t+1) 分 别 表示 在 时 刻 + 和 4t + 1 时 y' 轴 上 领土 的 相对 位 置 。 
式 (5. 82) 中 的 形成 回报 函数 是 基于 下 列 思想 设计 的 ， 即 防御 者 试图 通过 
































(5. 80) 
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保持 领土 和 入 侵 者 处 于 相对 两 侧 来 守卫 领土 不 被 侵入 。 换 名 话说， 如 果 入 侵 者 在 
防御 者 的 左 侧 ， 则 防御 者 需要 治 着 将 领土 保持 在 尽 可 能 远 的 右 侧 的 方向 移动 。 如 
图 5-24 中 的 相对 坐标 系 所 示 ， 入 侵 者 位 于 y' 轴 的 正 侧 。 则 图 5-24 中 防御 者 的 目 
标 是 使 得 入 侵 者 保持 在 y' 轴 的 正 侧 ， 并 沿 着 将 领土 进一步 保持 在 y' 轴 负 侧 的 方向 
移动 。 


5.13 仿真 结果 


假设 防御 者 没有 任何 关于 其 最 优 策略 或 人 侵 者 策略 的 信息 。 防 御 者 的 唯一 信 
息 是 玩家 的 当前 位 置 。 将 5.4 节 中 介绍 的 FQL 算法 和 FACL 算法 应 用 于 该 博弈 
中 ， 并 使 得 防御 者 通过 学 习 来 拦截 和 人 侵 者 。 为 补偿 缺少 直接 回报 ,在 FQL 算法 
和 FACL 算法 中 增加 5. 12 节 中 介绍 的 形成 回报 函数 。 进 行 仿 真 来 表明 基于 不 同 
回报 函数 的 FQL 算法 和 FACL 算法 的 学 习性 能 。 然 后 ， 再 增加 一 个 防御 者 。 对 两 
个 防御 者 独立 采用 相同 的 FACL 算法 。 每 个 防御 者 只 有 自身 位 置 和 入 侵 者 位 置 作 
为 输入 信和 号。 由 此 ，FACL 算法 在 这 种 情况 下 变 成 一 个 完全 分 散 式 学 习 算法 。 通 
过 仿真 测试 两 个 防御 者 如 何 相互 合作 来 达到 良好 性 能 ， 即 使 两 者 之 间 没 有 直接 共 
享 任何 信息 。 


5.13.1 一 个 防御 者 对 一 个 入 侵 者 


首先 对 双人 性 土 防御 微分 博弈 进行 仿真 ， 玩 家 的 动态 性 由 式 (5.74) 和 式 
(5.75) 给 出 。 

为 减少 计算 量 , 式 (5.26) 中 的 wz ) 定义 为 三 角 隶 属 函数 。 在 该 博弈 
中 ,定义 3 个 输入 变量 ， 分 别 是 相对 坐标 系 中 人 侵 者 的 位 置 Yi、 领土 的 位 置 x 
All 。 每 个 输入 变量 的 预定 义 三 角 隶 属 函 数 如 图 $-25 ~ 图 5-27 所 示 。 该 博弈 游 
戏 中 的 模糊 规则 个 数 是 4 x5 x5 =100。 在 模糊 规则 的 前 件 部 分 中 规则 和 隶属 函 
数 个 数 的 选择 是 基于 博弈 游戏 的 先 验 知识 。 


1 Ze PS PM PL NM NS ZE PS 
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KI 5-25 y | WPM. FRA Al 5-26 输入 变量 的 隶属 函数 (一)。 转 载 
文献 [18] ， 经 卡尔 顿 大 学 许可 自 文献 [18] ， 经 卡尔 顿 大 学 许可 
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对 于 FQL 算法 ， 选 择 离散 行为 集 4 为 
A= \1,30/4,7/2,7/4,0, -7/4, - 7/2, -377/4] (5. 83) 
式 (5.29) 中 的 s RERIK £= 
0.2, SF FACL AE, Hest (5.43) 中 的 yp NM NS Æ RS pM 
学 习 速 率 w = 0.1, Å (5.35) PH B= 
0.05。FACL 算法 中 的 探索 策略 选择 为 

















v(0,0) ,0 =1 的 随机 白 噪声 。 为 减少 未 来 
回报 对 当前 状态 的 影响 ,选择 式 (5.33) 图 5-27 输入 变量 的 隶属 函数 〈 二 )， 
和 式 (5.42) 中 较 小 的 折扣 因数 y = 0.5. 转载 自 文献 [18], © X. Lu 


现在 定义 学 习 过 程 中 的 场景 和 训练 试 
验 。 一 局 博弈 游戏 或 一 次 和 运行 是 指 从 玩家 的 初始 位 置 开 始 并 在 终止 状态 结束 。 博 
弈 游戏 中 的 终止 状态 是 指 防御 者 捕获 和 人 侵 者 或 入 侵 者 进入 领土 的 状态 。 训 练 试验 
定义 为 一 个 包含 200 个 训练 场景 的 完整 学 习 周 期 。 设 每 个 训练 场景 的 人 侵 者 初始 
位 置 为 (5，25) 。 领 土 中 心 位 于 (20, 10), HÆR =2, 

例 5.2 假设 入 侵 者 始终 采用 其 纳什 均衡 策略 。 防 御 者 从 初始 位 置 (5，5 ) 
开始 学 习 拦 截 NE 人 侵 者 。 在 此 ， 将 总 是 采取 纳什 均衡 策略 的 人 侵 者 称 为 NE 入 
侵 者 。 运 行 仿真 来 测试 具有 不 同 于 5. 12 节 中 介绍 的 形成 回报 函数 的 FQL 算法 和 
FACL 算法 的 性 能 。 图 5-28 ~ 图 5-30 给 出 了 包括 200 个 训练 场景 的 训练 试验 之 
后 的 仿真 结果 。 在 图 5-28 H, RAR (5. 80) 给 定 的 最 终 回 报 下 ， 训 练 的 防御 
者 未 能 拦截 入 侵 者 。 在 FOL 算法 和 FACL 算法 中 采用 式 (5. 81) 给 定 的 形成 回 
报 函 数 时 ， 同样 如 此 ， 如 图 5-29 所 示 。 正 如 在 5. 12 节 中 所 述 ， 式 (5.81) 中 的 
形成 回报 函数 并 不 是 该 博弈 游戏 的 恰当 选择 。 在 式 (5. 82) 中 所 提出 的 形成 回 
报 函 数 下 ， 经 过 训练 的 防御 者 成 功 拦截 和 人 侵 者 ， 如 图 5-30 所 示 。 该 示例 验证 了 
在 该 博弈 游戏 的 FOL 算法 和 FACL 算法 中 选择 一 个 恰当 的 形成 回报 函数 的 重 
要 性 。 

例 5.3 在 该 示例 中 ,给 出 具有 式 (5.82) 给 定 的 形成 回报 函数 的 FOL 算 
法 和 FACL 算法 的 平均 性 能 。 

训练 过 程 包括 20 次 训练 试验 ， 且 每 次 训练 试验 中 包含 200 次 训练 场景 。 对 
于 每 个 训练 场景 ， 防 御 者 从 图 5-31 所 示 的 初始 位 置 1 -4 中 随机 选择 一 个 。 在 每 
次 训练 试验 中 经 过 10 次 训练 场景 后 ， 建 立 一 个 测试 阶段 来 测试 已 训练 的 防御 者 
的 性 能 。 在 测试 阶段 ， 令 NE 入 侵 者 来 对 抗 训练 后 的 防御 者 ， 并 计算 性 能 误差 
如 下 : 






























































PE; = Pi, (up ,UT ) -Pi,(up,ur ) (ip =1,---,6) (5. 84) 
AP, ip 表示 玩家 的 初始 位 置 ; 回报 Pi, (up, ur) AP, (up, uy ) 由 式 (5.76) 
计算 而 得 ; PEi, 表 示 玩 家 初始 位 置 ip 时 的 计算 性 能 误差 。 
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图 5-28 例 5.2 中 无 形成 回报 函数 的 强化 学 习 。 转 载 自 文献 [18]，@ X. Lu 
无 形成 回报 函数 的 FOL 算法 的 训练 防御 者 b) 采用 无 形成 回报 函数 的 FACL 算法 的 训练 防御 者 
































a) 采 








在 该 示例 中 ， 入 侵 者 的 初始 位 置 在 学 习 过 程 中 国定 不 变 。 因 此 ， 玩 家 的 初始 
位 置 ip 可 为 图 5-31 所 示 的 防御 者 初始 位 置 1-6。 用 PE;,(TE) 来 表示 在 第 TE 次 
训练 场景 下 防御 者 初始 位 置 ip 时 的 计算 性 能 误差 。 例 如 ，PE，(10) 表示 根据 式 
(5.84) 在 第 10 次 训练 场景 下 防御 者 初始 位 置 1 时 计算 的 性 能 误差 。 然 后 计算 
20 次 训练 试验 后 性 能 误差 的 平均 值 ， 可 得 
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(5. 85 ) 





20 
1 
PE, (TE) = 二 >, PE 
i | ) 20,2, 


T: 
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P 


a TE) 3 


(ip = 1,+,6) 


aU, PE, (TE) 表示 20 次 训练 试验 后 第 TE 次 训练 场景 中 玩家 初始 位 置 ip 时 





























的 平均 性 能 误差 。 
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5-29 例 5.2 中 具有 较 差 形 成 回报 函数 的 强化 学 习 。 转 载 自 文献 [18 
b) 例 5.2 中 采 


报 函 数 的 FOL 算法 的 训练 防御 者 
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图 5-30 fi) 5.2 中 具有 较 好 形成 回 








a) 例 5.2 中 采用 较 好 形成 回 
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报 函 数 的 FQL 算法 的 训练 防御 者 b) 例 5.2 中 采 
函数 的 FACL 算法 的 训练 防御 者 

















较 好 形成 











报 函 数 的 强化 学 习 。 转 载 自 文献 [18], 经 卡尔 顿 大 学 许可 





回报 


图 5-32 给 出 了 经 FOL 算法 和 FACL 算法 学 习 后 平均 性 能 误差 PE;,，(TE) 减 
小 的 结果 。 值 得 注意 的 是 ， 图 5-31 中 的 防御 者 初始 位 置 5 和 6 并 不 包括 在 训练 
场景 中 。 尽 管 没 有 训练 防御 者 的 初始 位 置 5 和 6， 性 能 误差 PE; 和 PE 的 收敛 已 
验证 了 防御 者 的 学 习 策 略 接近 其 纳什 均衡 策略 。 与 图 5-32a 所 示 的 FOL 算法 相 
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防御 者 的 初始 位 置 : 
位 置 1-4 用 于 训练 场景 
位 置 1-6 用 于 测试 场景 


0 5 10 15 20 25 30 
图 5-31 例 5.3 的 训练 和 测试 场景 中 防御 者 的 初始 位 置 
转载 自 文献 【18] , 经 卡尔 顿 大 学 许可 
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PE ip(TE) (平均 性 能 误差 ) 














0 20 40 6 80 100 120 140 160 180 200 
TE( 训 练 场景 ) 
a) 
图 5-32 例 5.3: 训练 防御 者 与 纳什 均衡 人 侵 者 的 平均 性 能 。 转 载 自 文献 [18], © X. Lu 
a) FOL 算法 中 的 平均 性 能 误差 PEi(TE) (ip =1,…,6) 

















152 多 智能 体 机 器 学 习 : 强化 学 习 方 法 




















0 20 40 60 80 100 120 140 160 180 200 
TE( 训 练 场景 ) 
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图 5-32 例 5.3: 训练 防御 者 与 纳什 均衡 和 人 侵 者 的 平均 性 能 。 转 载 自 文献 [18], ©X. Lu ( 续 ) 
b) FOL 算法 中 的 平均 性 能 误差 PE,, (TE) (ip =1,…,6) 








比 ， 在 图 5-32b 中 ，FACL 算法 的 性 能 误差 经 学 习 后 收敛 到 更 接近 零 处 。 原 因 是 
式 (5.30) 中 FQL 算 法 的 全 局 连续 行为 是 基于 式 (5.83) 给 定 的 仅 包 含 8 个 元 
素 的 固定 离散 行为 集 4 所 生成 的 。 防 御 者 的 学 习 行 为 (策略) 与 其 纳什 均衡 行 
为 (策略) 的 接近 程度 取决 于 FOL 算法 中 行为 集 4 的 大 小 。 更 大 的 行为 集会 促 
进 防 御 者 的 行为 〈 策 略 ) 收敛 到 其 纳什 均衡 行为 (策略) ,但 0 函数 所 增加 的 维 
数 将 导致 学 习 速 度 缓慢 ， 如 5. 4 节 开 始 时 所 述 。 对 于 FACL 算法 ， 防 御 者 的 全 局 
连续 行为 由 式 (5.42) 中 的 预测 误差 直接 更 新 。 因 此 ， 防 御 者 的 行为 〈 策 略 ) 
对 其 纳什 均衡 行为 (策略 ) 的 收敛 性 会 优 于 FACL 算法 。 
5.13.2 两 个 防御 者 对 一 个 入 侵 者 

在 此 ， 在 博弈 游戏 中 增加 第 二 个 防御 者 ， 其 与 式 (5.74) 定义 的 第 一 个 防 
御 者 具有 相同 的 动态 性 。 该 博弈 游戏 的 回报 定义 为 

Plupisup su) = (x7 (te) —x'p)? + (yi (tr) -yy)? -R (5. 86) 

AF, up, up, u 分 别 是 防御 者 1、 防御 者 2 和 入 侵 者 的 策略 ; RA BERF. 


根据 5. 11 节 中 双人 博弈 的 分 析 ， 可 得 3 人 疆土 防御 微分 博弈 的 值 。 例 如 ， 
将 图 5-33 中 的 灰色 区 域 称 为 人 侵 者 的 可 达 区 域 ， 在 此 入 侵 者 能 够 在 两 个 防御 者 
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之 前 到 达 。 从 而 博弈 的 值 是 从 领土 到 入 侵 者 可 达 区 域 的 最 短 距 离 。 在 图 5-33 F, 
入 侵 者 可 达 区 域 中 的 点 0 是 距离 领土 最 近 的 点 。 因 此 ， 博 弈 的 值 变 为 

















Yh 
y 二 一 入 侵 者 可 达 区 域 
(入 侵 者 ) a 二 二 一 一 一 一 *D2( 防 御 者 2) 
D1( 防 御 者 1) 














图 5-33 三 玩家 疆土 防御 微分 博弈 。 转 载 自 文献 [18], © X. Lu 





Plu ak ur S10 -R (5. 87) 
WP, up. Up A uy 分 别 是 防御 者 1、 防御 者 2 和 入 侵 者 的 纳什 均衡 策略 。 
根据 式 (5. 87) ， 玩 家 的 纳什 均衡 策略 给 定 为 


ur = LDiO (5. 88) 
us = LD0 (5. 89) 
uř = 410 (5. 90) 


-7 Sup, ST, -Tu ST, -Tau ST 

将 FACL 算 法 应 用 于 该 博弈 游戏 以 使 得 两 个 防御 者 学 习 合作 来 拦截 入 侵 者 。 
入 侵 者 的 初始 位 置 和 目标 位 置 与 双人 博弈 中 完全 相同 。 博 弈 游戏 中 的 每 个 防御 者 
均 采 用 与 5. 13. 1 节 中 FACL 算 法 相同 的 参数 设置 。 此 外 ， 每 个 防御 者 只 有 自身 
位 置信 息 和 入 侵 者 位 置信 息 ， 而 未 知 男 一 防御 者 的 任何 信息 。 每 个 防御 者 独立 采 
用 相同 的 FACL 算法 ， 这 使 得 FACL 算法 在 该 博弈 游戏 中 成 为 一 种 完全 分 散 式 学 
习 算法 。 

例 5.4 假设 入侵 者 总 是 采用 式 (5.90) 中 给 定 的 纳什 均衡 策略 。 两 个 防御 
者 分 别 从 防御 者 1 的 初始 位 置 (5，5) 和 防御 者 2 的 初始 位 置 (25，25) 开始 
学 习 来 拦截 纳什 均衡 入 侵 者 。 类 似 于 5. 13. 1 节 中 的 双人 博弈 ， 仿 真 运行 一 个 包 
括 200 个 训练 场景 的 单独 试验 ， 来 测试 具有 5. 12 节 所 述 的 不 同形 成 回报 也 数 的 
FACL 算法 的 性 能 。 在 图 5-34 中 ， 只 有 最 终 回报 以 及 具有 式 (5.81) 给 定形 成 
回报 函数 的 两 个 防御 者 未 能 拦截 纳什 均衡 入 侵 者 。 相 反 ， 具 有 式 (5. 82) 给 定 
形成 回报 函数 的 两 个 训练 防御 者 在 一 次 训练 试验 后 成 功 拦 截 纳 什 均衡 入 侵 者 ， 如 
图 5-35 所 示 。 
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o 防御 者 1 
= 防御 者 2 
“ARF 
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图 5-34 例 5.4 中 无 或 较 差 形成 回报 函数 的 强化 学 习 。 转 载 自 























a) 一 次 训练 试验 后 采用 无 形成 
b) 一 次 训练 试验 后 采用 较 差 形成 

















文献 [18], © X. Lu 


回报 函数 的 FACL 算法 的 两 个 训练 防御 者 对 纳什 均衡 人 侵 者 
回报 函数 的 FACL 算法 的 两 个 训练 防御 者 对 纳什 均衡 人 侵 者 


例 5.5 在 本 例 中 ,展现 了 具有 所 提出 的 形成 回报 函数 的 FACL 算法 在 3 人 





Zo 


1 











志 穿 中 的 平均 性 能 。 类 似 于 例 5. 3， 仿 真 


行 20 次 训练 试验 ， 且 每 次 训练 试验 





中 具有 200 个 训练 场景 。 训 练 过 程 包 括 20 次 训练 试验 ， 且 每 次 训练 试验 中 具有 
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15-35 Bil 5.4 中 一 次 训练 试验 后 采用 较 好 形成 回报 函数 的 FACL 算法 的 
两 个 训练 防御 者 对 纳什 均衡 入侵 者 。 转 载 自 文献 [18], © X. Lu 














200 个 训练 场景 。 在 每 个 训练 场景 中 ， 防 御 者 从 图 5-36a 所 示 的 初始 位 置 1 -2 
中 随机 选择 一 个 。 

经 过 每 10 个 训练 场景 后 ， 建 立 一 个 测试 阶段 来 测试 已 训练 的 防御 者 的 性 能 。 
测试 阶段 中 的 性 能 误差 定义 为 

PE = P;, (CuDl ,UD Uy) -Pp (up; Up) Ur ) (ip=1,-:-,4) (5.91) 

AE, ip 表示 图 5-36a 所 示 的 防御 者 初始 位 置 1 -4; Pi, (up, um, ur ) MP, 
(up, upm, uč ) 是 根据 式 (5.86) 计算 的 回报 。 

然后 ， 计 算 20 次 训练 试验 的 平均 性 能 误差 ， 可 得 





2 20 
PE,(TE) = Æ >, PEM(TE) (ip =1,.,4) (5.92) 


ip 
Trl =1 

ZU, PE, (TE) RANE 20 次 训练 试验 的 第 TE 次 训练 场景 中 玩家 初始 位 置 ip 的 
平均 性 能 误差 。 图 5-36b 中 的 仿真 结果 表明 ， 经 200 次 训练 场景 后 ， 平 均 性 能 误 
差 PE,,(TE) (ip =1,…,4) 收 敛 到 接近 于 零 。 根 据 仿真 结果 ， 两 个 训练 的 防御 者 
成 功 学 习 并 拦截 纳什 均衡 和 人 侵 者 。 尽 管 没有 对 图 5-36a 所 示 的 位 置 3 和 4 进行 训 
练 ， 但 图 5-36b 中 PE, 和 PE, 的 收敛 性 验证 了 两 个 训练 防御 者 的 良好 性 能 。 仿 
真 结果 还 验证 了 具有 所 提出 的 形成 回报 函数 的 FACL 算法 在 3 人 疆土 防御 微分 博 
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图 5-36 例 5.5: 两 个 训练 防御 者 与 纳什 均衡 人 侵 者 的 平均 性 能 。 转 载 自 文献 [18], © X. Lu 
a) 训练 和 测试 场景 中 玩家 的 初始 位 置 b) 训练 防御 者 与 纳什 均衡 入 侵 者 的 平均 性 能 误差 
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Ake 
6.1 简介 
题 [1] 。 


在 本 章 中 ， 主 要 研究 这 一 主题 所 涉及 的 一 些 





人 的 进化 。 同 时 也 讨论 坏 境 表 和 和 


fl 





F 的 概念 。 


6.2 和 群 智能 的 进化 
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群 智能 起 源 于 对 社会 性 昆虫 群落 的 观察 。 主 要 强调 (相对 ) fa 
间 的 分 布 以 及 直接 或 间接 的 交互 5] 。 由 于 大 量 的 智能 体会 使 得 整个 系统 旬 
某 些 个 体 的 故障 ， 因 此 群 智能 方法 设计 更 为 灵活 和 强大 。 

群 智能 的 最 初 应 用 和 主要 应 用 
种 替代 ， 更 具体 地 说 ， 是 遗传 规划 。 因 此 ， 群 智 
一 种 更 令 人 兴奋 的 方法 是 基于 简单 智能 体 (一 种 集体 智能 的 类 型 ) 实现 人 工 智 











群体 智能 可 定义 为 研究 社会 性 昆虫 隐喻 来 解决 计算 机 科学 或 工程 中 的 问 
这 是 一 个 非常 强大 的 思想 和 一 个 非常 有 趣 的 研究 课题 。 

首先 讨论 群 智能 和 和 群 机 器 
的 必要 性 。 此 后 ， 提 出 适用 于 群 机 器 人 的 性 格 特 














体 之 
够 承 


已 
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组 合 优化 。 这 可 认为 是 对 传统 经 典 方法 的 一 





成 功 应 用 于 通信 网 络 呈 1 。 











能 的 尝试 。 在 这 个 意义 上 ， 智 能 可 看 作 解 决 问题 的 能 力 ， 而 不 是 纯粹 的 合理 性 。 




















群 智能 的 主要 思想 之 一 是 社会 中 许多 个 体 之 间 的 少量 (正式 ) 沟通 。 具 体 











概念 是 指 个 体 可 通过 观察 其 他 个 体 的 行为 而 直接 从 环境 中 获取 信息 ， 这 称 为 协同 


机 制 (来 自 希 腊 语 : stigma; sting, VAK ergon: work) eae 
首先 ， 智 能 体 之 间 所 需 的 通信 带宽 大 大 减 
因为 机 需 人 是 通过 其 表 行 
E FELA RÍ 


硬件 已 得 到 快速 发 展 ， 因 此 已 可 以 实现 简单 的 机 融 人 并 对 其 进行 运行 测试 。 最 重 











少 ; 其 


























次 ， 环 境 表征 性 非常 重要 ， 这 是 
E 〈 而 不 是 环境 世界 本 号) 进行 通信 。 最 后 ， 当 逐步 趋 
F 时 ， 传 感 顺 将 成 为 成 功 实 现 的 关键 方面 。 





这 一 思想 的 意义 深远 : 














在 机 器 人 学 中 ， 群 智能 的 关键 优势 在 于 其 简单 性 。 由 于 在 过 去 10 年 左右 内 














要 的 是 在 非常 简单 的 芯片 中 能 够 实现 算法 ， 如 现场 可 编程 门 阵列 (FPGA) 


在 本 章 中 ， 主 要 讨论 应 用 于 机 器 人 的 群 
间 的 合作 性 质 ， 并 尝试 可 为 未 来 发 展 提供 基 而 














智能 方法 。 在 此 ， 试 图 理解 机 器 人 之 
1 的 协调 算法 。 
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6.3 ”环境 表征 














环境 表征 的 方式 对 于 采用 哪些 技术 来 控制 机 器 人 以 及 如 何 利 用 博弈 论 实 现 回报 
表 具 有 很 大 影响 。 为 减少 机 器 人 的 计算 量 ， 环 境 由 称 为 计算 场 技术 的 势 场 表 征 51 。 

计算 场 是 基于 社会 势 场 之 间 的 合作 [4 。 每 个 机 器 人 可 看 作 在 固定 时 间 内 具 
有 给 定位 置 的 粒子 。 包 含 其 他 机 器 人 、 障 碍 物 和 敌人 的 环境 是 由 势 场 单独 表征 。 
势 场 可 表示 对 象 之 间 的 吸引 或 排斥 。 在 此 介绍 的 方法 中 ， 场 的 含义 通过 6. 4 节 所 
讨论 的 机 器 人 个 性 特征 适应 性 来 确定 。 这 时 ， 可 认为 机 带 人 运行 的 算法 是 根据 其 
具体 任务 以 及 所 开发 的 特性 来 选择 下 山 ( 即 机 器 人 表征 的 势 场 较 低 处 ) 或 上 山 
(机 器 人 表征 的 势 场 较 高 处 ) 。 

对 于 每 个 机 器 人 人， 根据 其 感知 的 对 象 所 创建 的 势 场 ， 可 表示 所 作用 的 “ 势 
gn” BA 




















Fi= Y F+} F (6.1) 


attractive repulsive 

其 中 ， 每 个 机 器 人 的 引力 和 斥 力 具 有 不 同 定 义 。 因 此 ， 每 个 独立 机 器 人 以 完全 不 
同 于 其 他 机 器 人 的 方式 来 感知 环境 世界 ， 这 点 非常 类 似 于 人 类 。 在 图 6-1 中 ,给 
出 了 环境 世界 的 实际 配置 以 及 每 个 机 器 人 感知 环境 世界 的 方式 。 由 图 6-1 可 知 ， 
PLATA A 对 机 器 人 B 一 无 所 知 ， 另 一 方面 ， 机 需 人 B 具有 不 符合 实际 数据 的 自 
ERAS (MA) 表征 ， 且 其 他 3 个 对 象 表征 为 群体 聚 类 形式 ( 即 较 大 吸引 子 形 
式 ) ， 而 不 是 个 体形 式 。 表 征 的 差异 可 能 是 由 于 个 体 新 性 格 特征 的 学 习 或 来 自传 
感 需 的 噪声 。 无 论 哪 种 方式 ， 机 器 人 都 会 在 相应 理解 中 产生 一 些 结果 。 这 意味 着 
即使 机 器 人 什么 都 不 做 ， 也 会 产生 计算 的 结果 。 在 式 (6.1) H, Fy 是 作用 于 
HLEA WEDI GIJA) 的 合力 。 


a) b) c) 


图 6-1 a) 实际 配置 b) 机 器 人 A 感知 方式 c) 机 器 人 B 感知 方式 。 
转载 自 文献 [21], © S. Givigi 和 H. M. Schwartz 




















reo 
ve 
re 
re 
[ool 























第 6 章 群 智能 与 性 格 特征 的 进化 161 








机 融 人 的 运动 方向 是 合力 方向 ， 该 合力 可 表示 为 


Fol Fyldp (6.2) 
P, dy 为 合力 方向 上 的 单位 矢量 ， 即 

+ È 

P= TFT (6.3) 








在 此 ， 采 用 该 符号 以 强调 运动 方向 定义 的 势 场 ， 但 最 终 是 否 在 该 方向 上 运动 
以 及 运动 速度 取决 于 6.4 节 中 定义 的 个 性 特征 。 机 器 人 的 目标 (合力 均衡 或 得 
到 一 个 最 大 /最 小 值 ) 很 大 程度 上 取决 于 所 执行 的 任务 。 


6.4 ” 群 机 器 人 的 性 格 特征 


进化 论 的 一 个 必要 假设 是 动物 有 情感 181 。 此 外 ， 这 些 情感 是 由 同一 物种 共 
享 。 同 时， 性 格 特征 (情感 交互 术语 ) 对 于 维护 目标 和 协作 非常 重要 !6] 。 根 据 
这 些 思想 ， 可 定义 一 种 机 器 人 对 所 处 环境 做 出 反应 的 方式 [7?] 。 

在 此 研究 的 问题 中 ， 机 器 人 最 初 假定 为 在 配置 和 能 力 上 均 是 同 构 的 (可 理 
解 为 每 个 机 器 人 所 具备 的 性 格 特征 集合 ) 。 然 而 ， 正 如 蚁 群 中 的 蚂蚁 ， 都 应 彼此 
不 同 ， 以 便 更 好 地 执行 复杂 任务 ,但 并 不 想 增 加 算法 的 复杂 性 。 为 解决 该 问题 ， 
在 此 利用 性 格 特征 的 不 同 。 因 此 ， 尽 管 每 个 机 器 人 的 算法 相同 ， 但 改变 这 些 值 
(“特征 ”) 将 会 改变 单个 机 器 人 的 行为 。 虽 然 这 一 思想 比较 简单 ， 但 意义 重大 ， 
与 强化 学 习 相 结合 可 能 会 导致 异 构 群 体 ， 其 中 一 些 机 器 人 能 够 专门 执行 某 些 任 
务 ， 但 同时 ， 若 有 必要 ， 也 可 以 学 习 如 何 执行 不 同 的 行为 。 

性 格 特征 由 实数 y; 表 征 ， 可 用 于 表示 面 对 环 境 变化 时 的 个 体 意 图 。 行 为 的 
选择 应 考虑 到 机 器 人 具有 的 性 格 特征 以 及 在 给 定时 间 内 每 个 行为 的 相关 回报 。 值 
得 注意 的 是 ， 回 报 会 根据 环境 表征 的 变化 而 改变 。 在 此 ， 以 一 个 人 类 示例 来 解 
释 。 在 人 类 的 饮食 习惯 中 ， 通 常 不 会 考虑 吃 虫 子 。 然 而 如 果 在 丛林 中 迷失 ， 为 保 
证 生存 会 做 任何 事情 。 以 同样 方式 ， 如 果 机 器 人 感知 到 环境 的 变化 ， 也 会 改变 其 
回报 值 。 因 此 ， 回 报 是 取决 于 机 器 人 的 性 格 特征 。 

定义 6.1 对 于 玩家 i， 定义 性 格 特征 为 





















































yi=lM Yn] (6.4) 
且 对 于 个 性 格 特征 定义 的 回报 函数 可 用 矢量 表示 为 
E =[5 En]" (6.5) 


然而 ， 由 于 6.5 节 中 介绍 的 算法 只 是 针对 一 个 机 器 人 ， 因 此 在 本 节 中 暂 不 考 
ie PSA io 

回报 函数 8; 表示 性 格 特征 对 机 器 人 成 功 行为 的 作用 程度 。 这 些 函 数 可 以 是 
任意 函数 ， 且 根据 所 考虑 的 问题 来 定义 [91 。 当 选择 执行 的 行为 w 时 ， 更 新 所 有 
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性 格 特征 y。 可 通过 下 式 来 评估 所 采取 行为 的 效果 ; 

V7,0) =h( Dyes,ant) ) (6.6) 

j=1 

其 中 ,个 体 回报 函数 6 与 机 器 人 根据 每 个 性 格 特征 y 在 状态 s, 执行 行为 a, 的 作 
用 相关 ， 并 因此 确定 与 性 格 特征 相关 的 回报 和 /或 惩罚 。 函 数 4(，) 是 一 种 定义 
适当 的 函数 ， 以 某 种 特定 方式 对 所 考虑 的 每 个 问题 中 的 成 本 函数 加 权 求 和 。 值 得 
注意 的 是 ， 回 报 函 数 6j 是 一 些 来 自 环境 的 反馈 。 由 于 可 能 会 有 更 多 的 机 器 人 作 
用 于 环境 ， 因 此 一 个 特定 机 器 人 获得 的 回报 间接 取决 于 其 他 智能 体 采取 的 当前 行 
为 。 此 外 ， 设 权重 y( 即 性 格 特征 ) 归 一 化 ， 由 此 可 得 

















Ly =1 y; 29 (6.7) 
j=l 


然而 值得 注意 的 是 ， 性 格 特征 矢量 y 不 是 概率 矢量 。 也 就 是 说 ，y; 不 是 机 器 人 
采取 行为 7 的 概率 。 实 际 上 ， 人 性 格 特征 矢量 的 维 数 和 行为 个 数 通常 并 不 相同 。 

式 (6.6) 考虑 了 时 刻 t (当前 时 间 步 ) 表征 的 所 有 人 性格 特征 y, 和 环境 。 此 
外 ， 行 为 w 是 当前 所 考虑 的 行为 ， 且 s, 是 机 器 人 在 时 刻 1 感知 的 环境 状态 。 

除 此 之 外 ， 还 需要 一 些 性 格 特 征 的 进化 过 程 。 其 主要 目的 是 减少 学 习 过 程 中 
稳定 性 和 适应 性 (可塑性) 之 间 的 矛盾 。 

性 格 特征 矢量 的 动态 性 由 下 列 一 般 差 分 方程 描述 : 

Viet =Y +N F(y,,E,) (6.8) 
RP, RAFC, ,有 ) 取 决 于 所 考虑 的 实际 应 用 。 

式 (6.8) 意味 着 ， 由 于 效用 函数 是 所 有 性 格 特征 的 函数 ， 因 此 每 个 性 格 特 
征 会 影响 其 他 性 格 特征 (注意 F(y,,5,)) 可 能 包括 所 有 其 他 性 格 特征 的 回报 函 
数 ) 。 由 此 可 知 ， 改 变 单个 性 格 特征 会 影响 所 有 其 他 性 格 特征 。 此 外 ， 由 于 效用 
函数 还 包括 所 有 其 他 玩家 的 行为 (如 上 所 述 )， 其 他 玩家 的 效用 和 动作 也 会 影响 
一 个 机 器 人 性 格 特征 的 改变 。 

群 机 句 人 的 性 格 特征 实现 是 一 个 具有 广泛 应 用 前 景 的 研究 课题 。 这 种 技术 的 
实现 简单 。 同 时 ， 还 可 体现 大 量 机 器 人 之 间 的 协作 过 程 [51 。 

在 下 面 的 内 容 中 ,介绍 目前 为 止 所 提出 的 这 一 思想 的 一 些 应 用 。 博 穿 理 论 和 
群 智 能 相 结 合 可 用 于 求解 与 多 机 器 人 环境 相关 的 问题 ， 并 促进 基于 性 格 特征 思想 
的 算法 和 启发 式 算法 的 开发 。 










































































6.5 性 格 特征 的 进化 


Sahin 定义 群 机 器 人 为 研究 如 何 设计 大 量 相 对 简单 的 物理 表现 智能 体 ， 从 而 
能 够 从 智能 体 之 间 以 及 智能 体 和 环境 之 间 的 局 部 交互 中 体现 出 期 望 的 集体 行 
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为 中 。 在 本 书 的 方法 中 ， 对 于 期 望 的 集体 行为 采用 一 种 更 宽松 的 定义 。 在 此 更 
倾向 于 Beni 521 所 提出 的 系统 不 可 预测 性 。 也 就 是 说 ， 更 关注 于 从 群体 交互 中 所 
产生 的 模式 和 行为 。 

实际 上 ， 群 智能 并 不 是 用 于 产生 一 个 经 典 人 工 智 能 所 提出 的 理性 个 体 口 。 
而 是 通过 研究 由 简单 机 器 实现 的 简单 计算 模型 ， 群 智能 试图 探究 社会 实体 如 何 执 
行 复杂 任务 ， 这 是 由 于 这 些 行为 并 不 是 由 每 个 个 体 的 特定 特征 直接 预测 [3] 。 例 
如 ， 如 果 现 有 一 个 具有 大 多 数 和 平 智能 体 的 社会 ， 随 着 一 些 侵略 性 智能 体 进 入 ， 
不 能 预测 大 多 数 智能 体会 产生 新 的 和 平 智能 体 个 体 。 因 此 ， 本 章 目 的 是 试图 通过 
建 模 和 仿真 来 预测 这 些 行 为 ， 以 验证 可 用 于 群 机 器 人 环境 中 的 技术 。 

为 观测 群体 行为 的 出 现 ， 采 用 “性 格 特征 ”的 概念 "67] 。 通 过 性 格 特征 的 
适应 性 ， 每 个 机 器 人 的 潜在 行为 发 生变 化 ， 同 时 通过 改变 每 个 机 器 人 的 行为 ， 团 
体 行为 也 相应 改变 。 

为 证 明 目 前 提出 的 思想 ， 在 此 介绍 3 种 逐渐 越 来 越 复 杂 的 仿真 实验 ， 这 些 实 
验 表 明了 所 提 的 方法 重要 意义 。 在 6.6 节 ， 首 移 撒 述 了 仿真 实验 的 一 般 框架 。 在 
6.7 PP, SAAT RA GEE) 博弈 的 仿真 ， 由 于 不 存在 鞍点 ， 因 此 必须 采 
用 混合 策略 。 给 出 收敛 性 理论 证 明 ， 并 将 理论 最 优 解 与 通过 本 章 所 介绍 的 学 习 过 
程 而 获得 的 结果 进行 比较 。 在 6.8 节 中 ， 定 义 一 些 用 于 求解 下 面 各 节 中 所 提问 题 
的 概念 。6. 9 节 介 绍 了 一 种 比 6.7 节 中 所 讨论 的 更 为 复杂 的 应 用 。 在 6.9 节 中 ， 
构建 了 一 个 非 零 和 博弈 中 机 器 人 冲突 的 仿真 模型 。 此 外 ， 该 模型 中 具有 更 多 的 玩 
家 (3 个 机 器 人 ) ， 且 回报 不 仅仅 是 一 个 回报 表 ， 而 是 回报 和 目标 完成 的 组 合 。 
这 种 情况 下 没有 给 出 收敛 性 证 明 ， 这 是 一 个 开放 问题 。 仿 真 结 果 是 基于 启发 式 算 
法 。 在 6. 10 节 ， 介 绍 了 一 种 机 器 人 不 完全 感知 环境 的 情况 。 因 此 ， 需 利用 势 场 
来 表征 环境 以 及 一 个 更 为 复杂 的 学 习 过 程 。 这 也 是 一 个 开放 问题 。 然 而 ， 人 研究 结 
果 具 有 广泛 的 应 用 前 景 。 最 后 ，6. 11 节 对 所 有 仿真 进行 总 结 ， 并 以 一 种 具体 方 
式 将 其 结合 在 一 起 。 



















































































6.6 仿真 结构 框架 





SF 


本 章 中 所 介绍 的 所 有 仿真 都 将 采用 一 种 单一 框架 。 然 而 ， 随 着 考虑 的 情况 越 
来 越 复杂 ， 一 些 术语 的 含义 也 相应 改变 。 一 般 框架 如 算法 6. 1 中 所 述 。 


算法 6.1 一 般 算法 

L 如 果 需 要， 定义 表征 环境 的 所 需 变量 ， 并 初始 化 。 这 可 能 需要 多 个 步 又 。 
2. 初始 化 学 习 速 率 mn。 该 值 取决 于 所 考虑 的 具体 问题 。 

3. 定义 所 考虑 问题 中 需要 多 少 性 格 特征 ， 并 初始 化 。 
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4. 定义 博弈 的 回报 。 这 些 回 报 可 以 是 6.7 节 和 6.9 节 中 的 矩阵 (或 矩阵 集 
合 ) ， 或 表征 性 格 特征 对 任务 成 功 完成 的 作用 以 及 描述 环境 状态 的 矩阵 的 回报 
函数 6;， 如 6. 10 节 中 的 仿真 。 

5. 进行 博弈 。 博 弈 的 规则 将 在 每 个 仿真 中 具体 介绍 。 一 般 来 说 ， 采 用 式 
(6.6) 的 方程 。 

6. 根据 机 器 人 走出 房间 和 机 器 人 跟踪 目标 情况 下 的 式 (6.28) 和 式 (6. 29) 
来 更 新 性 格 特征 。 在 零 和 博弈 的 情况 下 ， 更 新 方式 稍 有 不 同 ， 这 将 在 随后 描述 。 

7. 根据 式 〈6.7) ， 对 每 个 机 器 人 的 性 格 特征 y; 进行 归 一 化 (如果 必 要 )。 












































对 于 本 章 中 介绍 的 每 个 仿真 ， 算 法 6. 1 中 的 步骤 可 根据 需要 进行 扩展 。 尤其 
是 在 6. 10 节 所 示 的 仿真 中 ， 上 述 的 每 个 步 又 都 作为 算法 实现 中 的 一 系列 过 程 。 


6.7 零 和 博弈 示例 




















本 方 中 分 析 文 献 [14] 中 所 提出 的 博弈 ， 见 表 6. 1。 这 是 一 种 零 和 博弈 ， 意 
味 着 各 个 玩家 的 回报 之 和 总 是 为 零 。 例 如 ， 如 果 玩 家 A 采取 策略 Al 而 玩家 BA 
取 策略 B1 ， 则 玩家 A 得 到 回报 4， 而 玩家 B 获得 惩罚 4;， 而 如 果 玩 家 B 采取 策略 
B2 ， 则 玩家 B 获得 回报 4， 而 玩家 A 得 到 惩罚 4。 
从 表 6. 1 可 以 看 出 ， 该 博弈 中 不 存在 鞍点 ， 因 此 两 个 玩家 必须 采用 混合 策略 。 
利用 线性 规划 求解 器 (如 单纯 形 法 ) 计算 得 到 的 两 个 玩家 的 最 优 策略 见 表 6. 2。 
6.1 零 和 博弈 示例 
















































































玩家 了 策略 
B1 B2 B3 B4 B5 B6 
7 Al 4 -4 3 2 =3 3 
HAA A2 1 1 2 0 0 4 
A3 =] 2 1 =] 2 -3 
表 6.2 最 优 混合 策略 
玩家 策略 最 优 频 率 〈% ) 
Al 24 
玩家 A A2 21 
A3 55 
Bl 0 
B2 36 
’ B3 0 
策略 B 
策略 B4 57 
B5 0 
B6 7 
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6.7.1 收敛 性 


对 于 6.4 节 中 的 式 (6.8) 或 6.6 节 中 介绍 的 算法 ， 实 际 上 不 可 能 得 到 策略 
(或 行为 ) 收敛 到 纳什 均衡 的 一 般 性 证 明 。 因 此 ， 需 要 为 零 和 博弈 的 特殊 情况 提 
供 一 个 收敛 性 证 明 2。 在 此 ， 收 敛 性 证 明 严 格 按照 文献 [15] 中 所 述 。 然 而 ， 这 
存在 根本 差别 。 由 于 在 此 采用 性 格 特征 ， 策 略 的 动态 性 取决 于 这 些 性 格 特征 ， 同 
时 还 必须 进行 额外 考虑 。 因 此 ， 引 入 性 格 特征 动态 性 以 推导 策略 的 动态 性 。 

对 于 零 和 博弈 ， 两 个 玩家 的 效用 函数 为 

Vi (Ppi P2) =piM p (6.9) 

UV2(p2,Pı) = -PMY pı (6. 10) 

AH, pi e R" 和 p, e R" 是 概率 阵列 ， 其 中 pj, 是 玩家 i 所 执行 的 策略 n WR; 
矩阵 M e R"*" 是 两 个 玩家 的 回报 和 矩阵。 

对 于 当前 的 仿真 ， 矩阵 MM 为 

4 -4 3 2 -3 3 
M=| -1 -1 -2 0 0 4 (6.11) 
=} 2 i =1 2 =3 

为 进行 证 明 ， 需 定义 一 些 符号 。 具 体 如 下 : 

定义 6.2 考虑 x = [xl ,…,x, ] ， 其 中 ，n 为 策略 个 数 。 

© A(n) RIR” (WA 6-2) PHARES, B 






























































纯 数 的 单纯 形 2 
1.5 T 
A(n) 
e bd( A (nm) 
1 J 
x 

0.5F J 

0 1 

0 0.5 1 1.5 


x 


图 6-2 具有 两 种 策略 的 玩家 单纯 形 法 。 转 载 自 文献 [21], © S. Givigi 和 H. M. Schwartz 


























O ”在 零 和 博弈 的 特殊 情况 下 ， 收 敛 到 纳什 均衡 。 
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A(n) = {Fe RYH, 2 OWE = 1, nA, x, = 1} 
j=l 
© int(A(n) ) ARBAB AA AES) ， 即 
int(A(n)) = |x eA(n) :x, >0Vi=1,.…,n| 
© bd(A(n)) 表示 单纯 形 的 边界 11] ( 见 图 6-2) ， 即 
bd(A(n)) = {x eA(n):x ¢int(A(n) ) | 
© vy, ebd(A(n) ) 表 示 单 纯 形 A(z) 的 第 ;个 顶点， 即 
v = {x eA(n) :x =1 Mx; =O VjiAi| 
现在 定义 最 佳 响应 映射 为 


Bi (P2) =arg max Vi CPi Pa) (6. 12) 
B.(p) arg_max U2(P2,P1) (6. 13) 
p2 €A(m) 


IR (6.9) FIIR (6.10) 中 的 效用 是 式 (6.6) 效用 函数 的 具体 实现 。 另 外 ， 
还 需 定义 与 每 个 性 格 特征 (RZE) 相关 的 回报 函数 以 及 用 于 更 新 每 个 玩家 性 
格 特征 ( 式 (6.8) 中 的 函数 F(y,E) ) 的 函数 。 值 得 注意 的 是 ， 效 用 函数 的 参数 
显然 与 式 (6.6) 中 的 参数 不 同 ; 而 是 由 于 分 别 取 决 于 式 (6.15) 中 的 y, My, 
这 些 参数 包含 在 Mp WE SCA, PRCA + ) 是 单位 函数 。 

接 下 来 ,定义 经 验 频率 的 概念 (对手 执行 其 每 个 行为 的 期 望 ) 。 经 验 频 率 q 
是 根据 所 观测 的 对 手 行为 平均 运行 值 进行 计算 15] (可 获得 对 手 在 每 个 时 间 步 所 
采取 的 行为 ) : 

















Gb) =g (8-1) + (Dy) -kl1)) 
| | | | (6. 14) 
qa(k) =q)(k-1) + F-(Va(k-1) -q(k-1)) 
WP, a,(k -1) ENZ i FEMALE k -1 执行 的 行为 ， 而 7 是 定义 6. 2 所 定义 的 单 
纯 形 顶点 。 假 设 一 ，7(6) 一 六 。 因 此 ， 在 证 明 中 ， 这 两 个 术语 可 互 换 。 
定义 从 性 格 特征 空间 到 策略 空间 d: R' A (rn) 的 映射 为 
qı =A, Yi 





_ — (6.15) 
h =Ay ?2 
注意 ， 和 矩阵 4 是 将 性 格 特征 转换 为 可 能 性 行为 。 定 义 每 个 性 格 特征 的 回报 
函数 如 下 〈 对 于 每 个 玩家 ) : 

E =A] (A4,A1) “1B 2) (6. 16) 
E =A} (A243) ~'By (a1) (6. 17) 

AP, A, eR’ "MA, ER™*”, 
这 些 回报 函数 利用 伪 逆 ， 并 用 于 收敛 性 证 明 。 在 该 示例 中 [采用 式 (6. 11) 
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中 定义 的 矩阵 M], BA n =3 个 策略 和 m =6 TR, Kk, W r =5 个 性 格 
特征 和 7, =10 个 性 格 特征 。 注 意 根据 式 (6.16) 和 式 (6.17), Ar, >n Mr > 
m。 此 外 ， rank(A,) = n 和 rank(A,) = mo 除 此 之 外 ， 不 作 任 何 假 设 。 此 外 ,用 
于 更 新 式 (6.8) 中 性 格 特征 (F(y,E) ) 的 函数 为 

F (yı ,©1) =€| -yı 

















S (6.18) 
F,(Y, ,€2) =€2 一 ?> 
由 此 得 到 的 性 格 特征 动态 性 为 
yi =A1(A141) -Bi (gq) -Yi 
(6. 19) 


> = Aj (A,A3 ) 18, (4) -y 
在 该 仿真 中 ， 放 宽 了 式 (6.7) 中 给 出 的 归 一 化 条 件 。 然 而 ， 这 只 是 为 了 简 
化 计算 。 采 用 这 种 方式 ， 可 易于 实现 。 其 中 ， 和 矩阵 MA OW 
0.3267 0.5071 0.7707 0.0478 0.3606 
A, =| 0.5406 0.7828 0.9703 0.1291 0.4767 (6. 20) 
0. 1427 0.2456 0.3197 0.9082 0.2506 
r0. 8686 0.6813 0.0693 0.2760 0.5695 0.5676 0.6390 0.6081 0.1034 0. 1500 
0.6264 0.6658 0.8529 0.3685 0.1593 0.9805 0.6690 0.1760 0.1573 0.3844 
0.2412 0.1347 0.1803 0.0129 0.5944 0.7918 0.7721 0.0020 0.4075 0.3111 
0.9781 0.0225 0.0324 0.8892 0.3311 0.1526 0.3798 0.7902 0.4078 0. 1685 
0.6405 0.2622 0.7339 0.8660 0.6586 0.8330 0.4416 0.5136 0.0527 0.8966 
LO. 2298 0.1165 0.5365 0.2542 0.8636 0.1919 0.4831 0.2132 0.9418 0.3227 
(6. 21) 
zt (6.20) FIÈ (6.21) 中 矩阵 的 值 随 机 产生 。 关 键 是 ， 如 果 和 矩阵 满足 上 述 
条 件 ， 则 算法 收敛。 更 重要 的 是 ,， 如果 4 和 4, 是 维 数 正确 的 单位 和 矩阵， 算法 转换 
为 虚构 博弈 ， 但 仍 保证 收敛 Im] 。 
根据 这 些 定义 ， 可 得 玩家 1 的 策略 动态 性 ; 
q(t) =A, Yı (t) 
=A, (AT (4AT) “1B (g(t)) -71 0)) 
=6 (q2(t)) -q (t) 
同 理 ， 玩 家 2 的 策略 动态 性 为 
Go(t) =By (qi (t)) - (2) (6. 23) 
现在 ， 定 义 一 个 衡量 玩家 获得 的 最 大 可 能 回报 的 函数 ; 
Vi(gq1,92) = mor Ne) -Vi (q1 5%) (6.24) 








Ay = 

















(6. 22) 
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式 中 ， max Vi (% 542 ) 是 玩家 1 可 能 采用 的 最 优 “ 策 略 ”9 。 
根据 式 (6.12) 可 得 
max U2) = (Bi (%2) )"M q (6.25) 
因此 ， 根 据 式 (6.24) ， 采 用 式 (6.9) 和 式 (6.10) 中 效用 函数 的 定义 以 及 
zt (6.12) 和 式 (6.13) 中 最 佳 响应 映射 的 定义 ， 并 结合 各 项 可 得 
Vi (4192) = (Bi (42) -1) Mg, (6. 26) 
同 理 
V (gq,,91) -(B,(g1) -q)'M" qı (6. 27) 
最 后 ， 可 认为 Vi (g) 20 UR V,a) 20 等 价 于 当 且 仅 当 =B, (4) 
和 gq， =B, (91)。 
现在 证 明 学 习 过 程 可 收敛 到 最 优 解 。 首 先 从 以 下 引 理 开始 : 
引 理 6.1 定义 入 CD) =n (q(t) a(t) A(t) =V) aa), WP, (2) = 
-V,(t) +M §, MV, (2) = - 7,0) -4EM ipo 
证 明 : 根据 式 (6.24) 中 的 定义 : 


gL max Vi p0) ) = Vi Gi (2) (2) 











V(t) = 
=Å max Viz. (t))] -IH (Mat) ] 
dt ~ xeA(n) dt 
-Val max Ui #92 (1)) 16 -GOM RU) -AOM BCE) 
并 根据 文献 [18] 中 所 提出 的 事实 ( [15], 3193.2): 
Vos max Ui pC) ) -Yo max [3"M 9 (1) ] = Bt (a2 (0) )M 
由 此 得 到 [根据 式 (6.22) Ast (6.26) ] 
V(t) =B8 RD MD) -BD DD) -RD ME) -a Mh) 
= (BE)) -RD M(t) + (Bt)) -nt)) Me) 
= -V +91 (t)M q(t) 
KIE, Va) = 一 入 (4) #92) M(t). HEV: (2) 可 采用 类 似 推 导 ， 从 而 
425 V, (4) = -V (t) -GEMT G (t) o 
BJA, BURKE: 
定理 6.1 微分 方程 系统 式 (6. 22) 和 式 (6.23) 的 解 满足 lim (q, (1) -局 











x 








C(t) )) =0 Milim (9, (1) - Bx (4, (1))) =0。 





”对 于 纯 策略 和 混合 策略 ， 请 参见 文献 [16] 。 
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证 明 : oe T(t) MG, (1) AV, (1) = - V4 (1) - 
GEMT G,(t). RE MPRA Vi» (2) =V,(t) + 访 (1)。 求 导 可 得 : 
V(t) =V, (4) + V2 (2) 
= -V (t) - V, (1) 
HEV, G) >0 AV, (1) 50 等 价 于 式 (6.22) 和 式 (6.23) 的 平衡 点 ， 因 
此 ， Vig (t) # Lyapunov eA, Axe FH AE ERE Be, 


6.7.2 仿真 结果 


现在 给 出 式 (6.11) 中 和 矩阵 博弈 问题 的 结 
假设 两 个 玩家 的 初始 化 性 格 特征 设 为 随机 值 (在 区 间 [0，1])。 这 意味 着 
Re 在 此 需 解 决 的 
问题 是 ， 如 果 采 用 上 述 性 格 特征 ， 玩 家 能 够 学 会 采用 最 佳 混合 策略 吗 ? 如 果 没 
有 ， 之 后 是 否 会 有 任何 改善 ? 
两 个 玩家 都 采用 算法 6.2。 如 式 (6.20) 和 式 (6.21) 中 所 述 ， 为 玩家 1 创造 
5 个 性 格 特征 ， 为 玩家 2 创造 10 个 性 格 特征 。 注 意 这 并 不 是 必要 的 ， 也 可 以 采用 
更 多 的 性 格 特征 (或 男 一 方面 ， 大 于 或 等 于 行为 个 数 的 一 个 较 小 数 ) 来 表征 玩家 。 
效用 函数 在 式 (6.9) 和 式 (6.10) 中 定义 。 如 果 离 散 化 性 格 特征 的 动态 性 
方程 [ 式 (6.22) 和 式 (6. 23 ) ] ， 最 终 得 到 式 (6.8) 的 方程 ， 其 中 ， 值 7 称 为 
学 习 速率 ， 并 设 为 正 数 ， 函 数 F(y,E) 如 式 (6.18) 定义 。 
算法 6.2 零 和 博弈 
. 40. 1 
. t0. 01 
. 设 玩家 A 的 性 格 特征 数 为 5， 玩 家 B 的 性 格 特征 数 为 10。 
. 随机 初始 化 性 格 特征 y、 和 ys 。 
. 根据 式 (6.11) 中 的 和 矩阵， 定义 博弈 回报 。 此 外 ,根据 式 (6.20) 和 式 
(6.21) 中 的 和 矩阵， 定义 从 性 格 特征 空间 到 行为 空间 的 映射 。 
6. 玩家 A 初始 化 玩家 B 的 经 验 频率 p 为 0。 玩 家 B 初始 化 玩家 A 的 经 验 频 
率 p| 为 0。 
7. 循环 i=1 ~5000 
8. 根据 概率 分 布 g = 4 y， 玩 家 A 计算 所 采取 的 行为 。 所 选择 的 行为 记 为 as 
9. 根据 概率 分 布 思 =A, y， 玩 家 B 计算 所 采取 的 行为 。 所 选择 的 行为 记 为 b。 
10. 两 个 玩家 采取 各 自行 为 。 
11. 玩家 A WERA Ma, 玩家 B ERX -Mpo 
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12. 更 新 式 (6.8) 中 描述 的 性 格 特征 。 

13. 根据 式 (6. 14) ， 玩 家 A 更 新 玩家 B 的 经 验 频率 。 
14. 根据 式 (6. 14) ， 玩 家 B 更 新 玩家 A 的 经 验 频率 。 
15. 记录 玩家 B 的 回报 ( -Ms )。 

16. 结 





然后 如 算法 6. 2 所 述 运行 仿真 。 在 第 7 行 中 迭代 循环 运行 5000 次 。 然 后 ， 
记录 玩家 A 采取 3 种 行为 中 每 一 个 行为 的 最 终 概率 、 玩 家 B 采取 6 种 动作 中 每 
一 行为 的 最 终 概率 以 及 玩家 B 在 每 次 仿真 中 获得 的 值 (玩家 A 获得 的 值 是 玩家 
B 获得 的 值 的 负数 ) 。 仿 真 结果 见 表 6.3。 在 此 注意 到 仿真 过 程 确实 使 得 性 格 特 
征收 剑 到 其 最 优 值 。 此 外 ， 也 观察 到 不 利 的 行为 B1 和 B3 几乎 从 未 采取 过 。 而 
且 ， 由 行为 B2 支配 的 行为 B5 也 从 未 采取 。 学 习 过 程 甚至 获知 B2 主导 BS 的 信 
息 。 此 外 ， 玩 家 B 的 平均 回报 为 0.0710， 这 非常 接近 博弈 的 理论 值 0. 07 H, 
值得 注意 的 是 ， 对 于 零 和 博弈 ， 所 提 方 法 会 转换 为 虚构 博弈 。 因 此 ， 总 是 会 收敛 
到 纳什 均衡 。 对 于 本 章 中 介绍 的 其 他 仿真 并 非 如 此 。 

表 6.3 两 个 玩家 得 到 的 实验 结果 















































玩家 行为 最 优 频率 (% ) 实验 频率 (% ) 

Al 24 22. 04 
玩家 A A2 21 23. 93 

A3 55 54. 03 

B1 0 1.05 

B2 36 36. 10 
ory B3 0 0. 02 

B4 57 56. 39 

B5 0 0 

B6 7 6.44 











68 后 续 仿 真实 现 





在 接 下 来 的 两 个 仿真 中 ， 实 现 过程 如 下 。 

回顾 式 (6.8) ， 必 须 定义 函数 F(y,E)， 的 行为 。 

定义 AE; (1) =€i(s,,0,t) 一 EC 1 一 1)， 其 中 ， Qj 是 在 时 刻 t 采 取 的 
行为 ， 而 a, 是 在 时 刻 1-1 采取 的 行为 ,定义 时 间 步 为 


Ro eee (6.28) 
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式 中 , n 为 机 器 人 的 性 格 特征 个 数 。 
定义 自 适 应 律 为 
yilt) =y;(t-1) +nAy(t) ,0 <n<1 (6. 29) 

式 (6.28) 和 式 (6.29) 意味 着 ， 由 于 分 母 中 存在 所 有 性 格 特征 ， 因 此 每 
个 性 格 特征 都 会 影响 其 他 性 格 特征 。 从 而 ， 改 变 某 一 单个 性 格 特征 会 影响 所 有 其 
他 性 格 特征 的 工作 方式 。 

此 外 , se (6.29) 的 收敛 性 很 大 程度 上 取决 于 学 习 速 率 7 的 值 : 如 果 该 值 
较 小 ， 则 收敛 过 慢 ， 且 机 器 人 需 过 长 时 间 来 适应 新 情况 ， 如 果 该 值 较 高 ， 则 系统 
在 收敛 之 前 的 某 个 值 附近 振荡 ， 且 收敛 时 很 大 概率 会 到 达 局 部 最 大 值 (最 小 
值 )。 在 本 仿真 中 ， 采 用 一 个 较 小 值 ， 以 便 实现 平滑 收敛 。 式 (6. 29) 与 强化 学 
习 文 献 中 的 形式 相同 。 更 多 细节 请 参见 文献 [19]。 

在 确认 状态 后 ， 根 据 称 为 随机 化 策略 的 公式 来 选择 行为 !81 ， 这 有 助 于 引导 
机 器 人 探索 新 的 行为 ， 而 不 仅仅 是 学 习 行 为 序列 。 为 完整 性 起 见 ， 在 此 列 出 表明 
随机 化 策略 的 方程 : 




















LV .7,0)/T 
P(a;| s) = ————_ (6. 30) 


> EV (8.7.0) /7 


pal 


RP, P 为 存在 性 格 特征 y 时 状态 s 下 执行 行为 w; 的 概率 ， 其 中 y =[y,…,Y,] 
为 性 格 特征 矢量 (如 6.4 节 中 所 述 ) ; 有 是 定义 机 器 人 多 长 时 间 搜 索 到 新 解 或 探 
索 已 知 更 优 解 的 系数 ， 当 天 增 大 时 ， 机 器 人 搜索 到 新 解 的 概率 降低 ， 反 之 亦 然 ; 
7 是 受 玻 尔 效 曼 统计 力学 理论 启发 的 温度 参数 ， 期 望 随 着 时 间 的 推移 ，7 逐步 减 
小 以 减少 探索 !91 ; 效用 函数 以 (… ) 与 所 考虑 的 行为 和 当前 状态 相关 。 

VO ) 是 长 期 预期 回报 ， 而 不 是 瞬时 回报 ， 这 意味 着 机 器 人 的 决策 是 基于 
期 望 值 而 不 是 瞬间 回报 来 求解 问题 (找到 目标 或 执行 预 设 任务 )。 在 具体 实现 中 
会 体现 性 格 特征 的 差异 ， 这 是 因为 机 器 人 经 一 段 时 间 的 学 习 ， 将 具有 “预测 ” 
行为 回报 的 能 力 。 此 外 ，n 为 性 格 特征 个 数 。 最 后 ，m 为 机 器 人 执行 的 可 能 行为 
AK, 在 所 有 仿真 中 ， 均 采用 =e ( 即 exp (1) = 2.7183) MT=1, T=1 意味 
着 随 着 时 间 推 移 ， 不 会 减少 探索 程度 。k =e 表明 机 器 人 更 倾向 于 利用 已 学 习 的 
策略 进行 探索 ， 但 也 会 开放 探索 09] 。 


6.9 ”机 器 人 走出 房间 
第 二 个 仿真 类 似 于 文献 [9] 中 提出 和 分 析 的 仿真 。 具 体 设置 如 下 ， 直径 为 


1 的 3 个 机 器 人 位 于 大 小 为 8 x8 (FATE (0, 0)、(0, 8), (8, 8) 和 (8, 0)) 
的 房间 中 。 其 中 有 一 个 中 心 位 于 (3, 8) 且 尺 寸 只 能 使 得 一 个 机 器 人 通过 的 门 。 
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在 房间 内 ，3 个 机 器 人 分 别 位 于 (3 +3 ,8 -32)、(3,6) 以 及 (3 -3 2 ,8 -3 
2) ， 即 与 门 的 距离 为 6 (ULE 6-3) 。 假 定 一 个 机 器 人 已 知 另外 两 个 机 器 人 的 位 
置 且 没有 任何 噪声 ， 同 时 还 假定 机 器 人 只 能 以 固定 速度 (每 秒 1 个 单位 ) 沿 直 
线 从 其 初始 位 置 朝 门 的 中 心 移 动 。 该 问题 可 描述 为 表 6.4 的 已 知 玩家 A 回报 的 
填 弈 游戏 。 表 中 的 值 和 和 了 必须 满足 规则 ; 
XeZ*#lVeZ~ (6. 31) 
式 中 , X 和 了 的 值 取 决 于 设计 者 如 何 选择 环境 表征 的 方式 。 如 果 设 计 者 想 要 增强 
玩家 A 的 行为 “Walk”， 则 设 171 > 171。 另 一 方面 ， 如 果 设 计 者 想 要 增强 行为 
“Wait”， 则 设 171 > 1X1。 最 后 ， 如 果 认 为 两 个 行为 处 于 相同 水 平 ， 则 设 1XI = 1Y|。 
在 介绍 算法 之 前 ， 需 要 先 给 出 一 些 定义 。 





























图 6-3 机 器 人 离开 房间 问题 的 描述 。 转 载 自 文献 [21], © S. Givigi 和 H. M. Schwartz 





表 6.4 两 个 机 器 人 试图 离开 房间 的 博弈 模型 











玩家 了 策略 
行走 等 待 
玩家 A 行走 =1 X 
策略 等 待 v4 0 











定义 6.3 算法 6.3 的 定义 。 
1) 图 6-3 中 机 器 人 1 和 机 器 人 3 的 回报 是 根据 如 下 矩阵: 


-1 1 
Man (sm) 
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式 中 ，IX1=1;1Y1=1 [ 见 表 6.4 和 式 (6.31) ]。 
对 于 玩家 2， 回 报表 为 


es 6. 33 
A J (6. 33) 
AF, X=3; Y= -1 [ 见 表 6.4 和 式 (6.31)]。 这 些 值 不 同 ， 从 而 使 得 机 器 人 


2 的 预期 回报 大 于 其 预期 惩罚 。 
2) 机 器 人 移动 的 概率 由 下 式 给 出 : 


庆生 一 (6. 34) 


ev! +e% 

AP, yN 1 “Wak” AK; 3 与 行为 2“Wait” 相 关 。 

算法 6.3 机 器 人 走出 房间 

1. 每 个 机 器 人 均 有 两 个 性 格 特征 ， 初 始 化 为 y; =1/2, i=1, 2, 分别 定 义 机 
器 人 采取 的 策略 ( 表 6.4 中 的 “Walk” 或 “Wait”) 。 

2. 根据 式 (6.32) 定义 机 器 人 1 和 机 器 人 3 的 回报 ， 根 据 式 (6.33) 定义 机 
器 人 2 的 回报 。 

3. 机 器 全 [1,2,31]。 

4. while 机 器 人 在 房间 内 do 

5， 对 于 每 个 机 器 人 ， 根 据 其 性 格 特征 计算 移动 概率 。 移 动 概率 由 式 (6. 34) 
给 出 ， 即 4 e{Walkk, Wait) (其 中 ,1 是 机 器 人 的 id)。 

6. for Le 机 器 人 do 

7. if 没有 其 他 机 器 人 在 房间 then 

8. 没有 冲突 。 设 行为 为 “Walk”， 即 A, Walk, 

9. else 

10. if l= 1 或 1=3, W] M&M, [xt (6.32)], FM M&M, [ 式 (6.33) ] 

11. for je Robots, jA! do 

12. F(y4,,€4,) =M(A,,4;) | 机 器 人 2 对抗 机 器 人 7 的 回报 | 

13. 更 新 与 根据 式 ya, (t) y4, -IT) + nF (yy, Eu) 所 选择 行为 相关 的 性 格 
特征 。 

14. end for 














2 
15; 归 一 化 所 有 性 格 特征 y,, 使 得 Diy, = 1;y; = 0。 


16. end if 
17. 将 行为 4 加 入 目前 为 止 所 采取 行为 的 列表 。 
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18. 这 行为 是 行走 有 旦 无 冲突 ，then HLA 1 BH, else 机 器 人 1 保持 当前 位 置 


一 个 时 间 步 。 
19. 这 机 器 人 到 达 门 ，then 从 列表 机 器 人 中 删除 Z 
20. end for 


21. end while 














重复 执行 具有 学 习 速 率 n= 0.01 的 博弈 100 次 后 ， 得 到 仿真 结果 。 首 先 ， 
一 侧 的 机 器 人 (机 器 人 1 或 机 器 人 3) 收敛 到 纯粹 的 “合作 ”机 器 人 ， 即 等 待 其 
他 机 器 人 的 性 格 特征 变 为 1， 而 另 一 侧 的 机 器 人 收敛 于 纯粹 的 “竞争 ”机 器 人 ， 
即 总 是 行走 的 性 格 特征 变 为 1。 其 次 ， 中 间 的 机 器 人 以 50/50 概率 选择 其 行为 。 
作为 上 述 的 结果 ，100 次 博弈 中 走出 房间 的 均值 为 10. 04s， 标 准 方差 为 1. 82s。 
另外 ，100 次 重复 仿真 中 有 24 次 得 到 最 优 解 8s。 

此 时 可 能 会 注意 到 ， 机 器 人 的 行为 并 不 是 为 增强 自身 优势 。 表 6. 4 表明 策略 
“Walk” 比 策略 “Wait” 更 占 主导 地 位 。 然 而 ， 其 行为 方式 是 使 得 团队 的 整体 结 
果 更 好 ， 这 将 是 在 下 一 个 仿真 中 可 利用 到 的 一 种 仿真 结果 。 在 此 ， 可 观察 到 自发 
产生 的 利他 行为 大 大 提高 了 团队 性 能 。 利 他 行为 的 出 现 是 由 于 在 算法 步骤 13 和 
15 中 执行 计算 的 结果 。 值 得 注意 的 是 , 式 (6.32) 和 式 (6.33) 中 的 矩阵 对 于 
策略 “Wait” 没 有 产生 正 回 报 。 然 而 ， 由 于 确定 执行 行为 的 性 格 特征 归 一 化 
(步骤 15) ， 选 择 策略 “Walk” 时 策略 “Wait” 的 负 回 报 与 冲突 的 负 回报 共同 驱 
使 其 中 一 个 机 器 人 产生 利他 行为 。 









































6.10 机 器 人 跟踪 目标 


本 市 利 用 上 述 所 提出 的 所 有 思想 ， 来 定义 一 个 由 多 个 机 絮 人 合作 完成 的 更 为 
复杂 且 更 具 挑 战 性 的 仿真 任务 。 设 置 如 图 6-4 所 示 的 仿真 环境 ， 图 中 给 出 了 一 辆 
HER (AE) 以 及 在 周围 运动 的 多 个 机 如 人 。 机 器 人 的 目标 是 找到 目标 并 
返回 基地 。 在 本 次 仿真 环境 中 ， 目 标 位 置 在 仿真 中 一 直 变 化 ， 而 机 器 人 利用 势 场 
(高 斯 势 场 ) 来 感知 环境 。 每 个 机 器 人 都 能 够 识别 目标 势 场 、 其 他 机 咒 人 势 场 和 
基地 势 场 。 测 量 读数 中 无 噪声 ， 但 可 能 有 一 些 延 迟 。 另 外 ， 还 假设 机 器 人 具有 低 
动态 性 ， 并 实现 保持 稳定 所 需 的 控制 回路 。 

每 个 机 费 人 具有 3 种 性 格 特征 : “BA” (y), “ER” (yn) 和 “合作 ” 
(73 ) ， 都 影响 机 器 人 采取 何 种 行为 。 例 如 ， 勇 敢 的 机 器 人 可 以 跟踪 目标 梯度 ， 
而 合作 和 怒 惯 的 机 器 人 可 能 倾向 于 与 其 他 机 絮 人 肾 在 一 起 形成 团队 来 寻找 目标 。 
同样 ， 这 些 行 为 源 于 对 机 器 人 “情感 ”定义 的 假设 。 
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在 本 次 仿真 中 ， 假 定 环境 仅 处 于 两 种 状态 : 0 意味 着 机 器 人 具有 高 风险 (被 
击 中 ) ;，% 意 味 着 机 器 人 具有 低 风 险 。 决 定 机 器 人 处 于 何 种 状态 是 与 心理 有 关 的 ， 
即 取决 于 每 个 机 器 人 的 性 格 特征 值 。 在 这 种 情况 下 ， 有 “勇气 ”的 机 咒 人 与 
“恐惧 ”的 机 器 人 相 比 ， 高 风险 的 含义 不 同 。 




















到 6-4 仿真 环境 描述 。 转 载 自 文献 [21] ，@ S. Givigi 和 H. M. Schwartz 

















设 r( + ) 为 确定 区 分 状态 6, 和 包 的 阔 值 的 函数 。 另 外 ， 设 yi 为 性 格 特征 
“勇气 ”、y, A O My AME o EX Pw, 为 最 大 势 场 。 由 此 可 定义 机 
器 人 识别 环境 为 状态 9，( 高 风险 ) 的 概率 为 








IFi| 
A —0o(Y,yY,Y3) (6. 35) 
由 于 性 格 特征 归 一 化 (如 前 面 所 述 ) , PEPE APR RC 
O(Y1 52573) =V1 7V2 -Y3 (6. 36) 


因此 ， 如 果 性 格 特征 y 〈 勇 气 ) 占 主 导 地 位 ， 则 机 器 人 识别 环境 为 “高 风 
险 ” 的 概率 将 降低 。 男 一 方面 ， 由 于 P(6,1 s) = 1-P(O,1s), ADE “RER” 
(y) 和 “合作 ”(ys) 占 主 导 地 位 时 ， 上 述 概率 增 大 。 注 意 ，P( . ) 可 能 超出 
区 间 [0,1] ， 如 果 这 种 情况 发 生 ， 则 简单 地 将 其 截断 。 

以 同样 方式 ， 只 有 两 种 行为 可 行 。 在 此 分 别称 为 i ， 意 味 着 执行 上 山 算法 
(ack At) 和 a,， 意 味 着 执行 下 山 算法 (根据 危险 程度 )。 表 6.5 给 出 
了 当 机 融 人 识别 出 处 于 每 个 特定 状态 环境 时 进行 相应 决策 的 回报 。 表 6. 5 中 的 值 
都 是 经 验 值 ， 且 通过 选择 不 同 回报 ， 机 器 人 会 以 不 同 的 行为 结束 。 另 外 ， 还 要 注 
意 ， 这 个 表 不 完全 是 之 前 示例 中 的 回报 表 。 在 之 前 的 情况 下 ， 机 絮 人 之 间 没 有 冲 
突 。 表 6.5 中 的 数字 表明 当 机 咒 人 感知 到 处 于 高 风险 状态 0 时， 执行 行为 a 
(下 山路 径 ) 更 加 “有 利 ”， 而 当 机 带 人 感知 到 处 于 低 风 险 状 态 Ot, Blt AE 
先 执行 行为 (上 山路 径 ) 。 随 后 【在 式 (6.37) 中 ] 会 发 现 选择 并 非 如 此 简 
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单 ， 但 一 般 来 说 ， 会 利用 上 述 规则 。 
表 6.5 状态 的 效用 回报 











效用 回报 

















0, b, 





B ay -1 5 
行为 














ay 4 =) 








机 器 人 识别 目标 后 ， 在 目标 位 置 估计 基础 上 返回 到 基地 。 机 器 人 距离 目标 越 
近 ， 则 被 击 中 的 危险 性 就 越 大 (在 每 个 时 间 步 将 机 器 人 所 处 的 势 场 划分 为 最 大 
势 场 和 目标 位 置 势 场 ， 并 根据 该 数值 ， 模 拟 敌人 行为 向 机 器 人 随机 射击 ) 。 一 旦 
机 器 人 被 击 中 ， 假 设 其 仍 可 运行 ， 但 必须 返回 基地 以 避免 失效 。 实 际 上 ， 可 能 
大 量 的 机 器 人 ， 因 此 该 假设 不 是 必要 条 件 ， 但 通过 该 假设 条 件 可 简化 仿真 环境 。 
若 机 器 人 被 击 中 ， 则 人 为 地 增 大 其 “ 丽 惧 ”性 格 特征 ， 以 避免 以 后 再 次 击 中 。 
在 这 种 方法 中 总 是 执行 任务 “返回 基地 ”， 且 在 机 器 人 识别 目标 后 只 是 原 路 安全 
返回 。 值 得 注意 的 是 ， 这 种 行为 是 人 为 的 而 并 不 是 所 期 望 的 ， 因 为 希望 机 器 人 即 
使 是 在 返回 基地 的 路 上 也 能 够 帮助 其 他 机 器 人 。 但 是 ， 为 了 简单 起 见 ， 在 此 没有 
实现 该 功能 。 

性 格 特征 定义 如 下 : 

1) 勇气 (71): 机 器 人 沿 着 危险 方向 ， 即 在 势 场 增 大 的 方向 上 ， 因 此 ， 这 
种 性 格 特征 会 使 得 机 器 人 更 可 能 识别 为 处 于 “ 低 风 险 ” 状 态 ( 表 6.5 中 的 状态 
9,) 的 环境 。 

2) RHE (y): 机 器 人 沿 着 与 危险 相反 的 方向 ， 即 在 势 场 减 小 的 方向 上 ， 
因此 ， 这 种 性 格 特征 会 使 得 机 器 人 更 可 能 识别 为 处 于 “高 风险 ”状态 (状态 8, ) 
的 环境 。 

3) 合作 (ys): 机 器 人 倾向 于 聚集 在 一 起 ， 以 减少 被 击 中 的 概率 。 这 种 性 
格 特征 会 使 得 机 器 人 一 起 合作 。 

4) 中 的 行为 可 理解 为 仿真 中 假设 机 器 人 被 击 中 的 机 会 与 聚集 在 一 起 的 机 器 
人 个 数 成 反比 。 这 并 不 是 一 个 合理 假设 , 事实 上 ， 在 研究 野生 动物 形态 CER, 
鱼 群 等 ) 时 ， 也 进行 了 同样 的 假设 201 。 

为 选择 一 种 行为 ， 采 用 式 (6.37) 中 的 值 函数 U: Xx4 一 R， 可 将 环境 的 
状态 和 所 考虑 的 行为 映射 到 回报 。 在 博弈 理论 下 ， 需 要 计算 值 函数 的 期 望 值 。 因 
Ik, LUV (s,,y,0;) =E {JCs,,y,@;)I(s,a;)}, BÈ (6.6) WAM, ME, 
ELV (5,,7,0;) =E 1 I(s,.7,0;) I (s,;) |, MAHA RRETH a, h9 ERE. 
在 此 ， 认 为 这 是 一 个 对 抗 自然 的 博弈 04] ， 其 中 假设 环境 采用 混合 策略 P(61 s) 。 
因此 ， 表 6. 5 中 博弈 的 预期 结果 为 
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V(s,,7,0) =E {J(s,,y,0) 1(s,,0) | =[ -1( PCG Is) +5( PCO Is) JJ (s, 7,0) 
V(s,,¥,0>) =E \J(s,,y,05)1(s,,a,)} =[4(P(0, 1s) -2(P(8 ls) JJ (5,7 ,0)) 
(6. 37) 
e 华 期 望 计算 应 用 于 6.4 节 中 介绍 的 一 般 框 架 。 实 际 
上 ， 该 方程 只 是 根据 博弈 理论 的 实现 式 (6.6), EP AC + ) 为 期 望 男 数 。 
es. 
T=1. 


























eV, y,a;) 
Pa) = 二 一 (6. 38) 


> esya) 
在 介绍 算法 之 前 ， 首 先 需 要 给 出 一 些 定义 : 
定义 6.4 算法 6.4 中 的 定义 。 
1) 根据 高 斯 场 来 确定 目标 。 如 果 (Xr, Yr) 指定 为 目标 的 位 置 ， 则 


(x—yT)2 1 Op)? 


T(x,y) = Ke~? 2 e@ 2 a (6.39) 
是 由 目标 辐射 的 高 斯 场 。o 为 场 的 标准 方差 ,及 用 于 表征 机 器 人 灵敏 度 尺度 。 
2) 机 器 人 同样 辐射 高 斯 场 。 如 果 (Xp, Xe) 为 机 器 人 的 位 置 ， 则 


1 
R(x = e 
a ae 
为 其 周围 的 高 斯 场 。o 是 场 的 标准 方差 。 
3) 位 于 (xi, y) 的 机 器 人 i 的 上 山 单位 矢量 为 
E VT(xi,yi) + 2 R(x, Xi) 
u; 6. 41 
n Tae) F Evi yi) | 7 
4) EF (xi, yi) 的 机 器 人 i 的 下 山 单位 矢量 为 
d;= -u; (6. 42) 
5) 机 器 人 识别 其 处 于 状态 9，( 高 风险 ) 的 概率 为 
| vyT(x;,y;) 一 > VR; Ciy) | 
ji 
| Fua | 
式 中 ，1Fy | 是 每 个 机 器 人 的 最 大 场 。 
同 理 ， 认 为 处 于 状态 9，( 低 风险 ) 的 概率 为 





















































1 (x-XR)2 1 (y-YR)2 
SA 


2 e72 ~ (6. 40) 























P(6,1s,) = 





—V¥1 +¥2 + ¥3 (6. 43) 





P(6,\s,) =1-P(O,|s,) (6.44) 
6) 执行 行为 a 的 概率 为 
P(a,) oe (6. 45) 
M1) 5 Gya) eV (yn) i 


178 多 智能 体 机 器 学 习 : 强化 学 习 方法 





同 理 ，P(@) = 1-P(ai )。 式 (6.45) 即 式 (6.30), Hk =e, T=1 An=2, 
7) 根据 自 适应 律 来 更 新 性 格 特征 : 








Yit) =y;(t4-1) +nAy; (t) (6. 46) 
其 中 
Ayi(t) = cee, (6.47) 
È &(t) 
j=l 


8) 机 器 人 被 击 中 的 概率 为 
| yT(%;,y;) 一 六 VR (xisyi) | 
ji 
max(| T(x;,y;) | ) 

RP, (Ca; y;) 是 机 器 人 之 前 访问 过 的 所 有 点 。 

算法 6.4 目标 跟踪 

1，| 初 始 化 | 定义 基地 并 设置 所 有 机 器 人 的 初始 位 置 。 随 机 选择 目标 的 位 置 
(Xp, Yo) 及 其 标准 方差 e。 设 有 = 一 5， 并 根据 式 (6.39) 创建 高 斯 场 。 初 始 


$ 
0 V2T 


P(shot) = 





- 0.01 (6. 48) 




















化 每 个 性 格 特征 为 【0，1] 中 的 随机 值 。 并 将 其 归 一 化 , 使 得 Sy, = ly 20. 
2. 对 于 位 于 (Xp, Ye) 的 每 个 机 器 人 ,根据 式 (6.40) 定义 其 周围 的 场 ， 
Frito = 4。 

3. 初始 化 包含 所 有 机 器 人 的 列表 机 器 全 [1 ,2,…,n]。 

4. 重复 

5. for ie Robots | 所 有 机 器 人 } do 

6. 计算 机 器 人 当前 位 置 处 的 梯度 VT(x; ，y;) 。 

7 

8 

9 








. forj e Robots; j 4 i do 计算 每 个 机 器 人 场 的 梯度 VR; (x;,Yi) o 

. 根据 式 (6.43) 和 式 (6.44) 计算 在 状态 0 和 见 下 识别 机 器 人 的 概率 。 

. 计算 每 个 性 格 特征 61( ， +). Eo( ) 和 63( ，) 的 回报 。 

10. 根据 式 (6. 37) 计算 执行 每 个 行为 的 期 望 值 。 

11. 计算 上 山 单位 矢量 式 (6.41) 和 下 山 单 位 矢量 式 (6. 42)。 计 算 执 行 如 
式 (6.45) 所 述 行为 a， (上山 ) Ma, CFM) 的 概率 。 并 利用 这 些 概率 随机 
选择 所 要 执行 的 行为 。 

12. 根据 式 (6.47) 计算 性 格 特征 的 自 适应 步骤 。 

13. 根据 式 (6.46) 中 的 自 适 应 律 更 新 性 格 特征 。 

14. 计算 式 (6.48) 中 机 器 人 被 击 中 的 概率 。 
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15. if Boat A i AGP then 从 列表 机 器 人 删除 机 器 人 i, JFR EHEHE 
16. end for 
17. until 所 有 机 器 人 返回 基地 


如 算法 6.4 中 所 述 ， 回 报 函 数 E;( ) 的 选择 取决 于 实际 应 用 。 认 为 回报 函数 
必须 包括 任务 成 功 完成 后 的 某 种 外 部 回报 。 然 而 ， 在 算法 6. 4 的 模型 中 并 未 
考虑 。 

对 于 算法 6.4 中 所 采用 的 回报 函数 ， 解 释 如 下 : 

e E ) 是 性 格 特征 y “勇气 ”的 函数 。 对 于 行为 wj“ 沿 上 山 梯度 "， 回 
报 为 61 (s,,0,,¢) =VT(xi,y;) wi。 注意 ， 如 果 梯度 V7 和 上 山 单位 矢量 心 之 间 
的 夹 角 处 于 区 间 ( -90°, 90°) 内 ， 则 回报 值 为 正 ， 否 则 为 负 。 对 于 动作 a, 
“ 沿 下 山 梯 度 ”， 回 报 为 G1 (s,,05,t) =VT(x;,y,) + deo 同样 ， 如 果 梯 度 V7 和 下 
山 单位 矢量 d, 之 间 的 夹 角 处 于 区 间 (-90°, 90°) 内 ， 则 回报 值 为 正 ， 否 则 为 
负 。 也 就 是 说 ， 如 果 运 动 的 方向 更 接近 于 目标 梯度 ， 则 性 格 特征 “勇气 ”可 获得 
较 大 回报 值 。 由 于 x, Ald, 由 目标 梯度 和 机 器 人 梯度 之 和 Est (6.41) 和 式 
(6.42) ] 构成 ， 因 此 优先 选择 更 接近 于 危险 的 方向 。 

© &)( . ) 是 性 格 特征 7 “RU” WAR, EAH a, “WERE”, E 
报 为 Eo (s,, 0 ,t) = (> VR Giy) ) -u TER, 如 果 梯 度 和 ( E VR; Cs,y) ) 

jz¥i J*i 
MENTRE 之 间 的 夹 角 在 区 间 (-90°, 90°) 内 ， 则 回报 值 为 正 ， 否 则 
为 负 。 对 于 行为 mm“ 沿 下 山 梯度 "， 回 报 为 (wo,D) = (E VR y) ): 
jz¥i 














d 同 理 ， 如 果 梯度 和 (D VR Cy) ) 和 下 山 单位 矢量 di 之 间 的 夹 角 在 区 间 
Ji 
(90°, 90°) 内 ， 则 回报 值 为 正 ， 和 否则 为 负 。 也 就 是 说 ， 对 于 机 器 人 靠近 其 他 
机 器 人 的 行为 ， 性 格 特征 “ 恺 惧 ” 可 得 到 较 大 回报 。 
。 6&3(“。 ) 是 性 格 特征 为 “合作 ”的 函数 。 对 于 上 述 两 种 行为 ， 回 报 计算 为 
€2 (581,01,t) = D VR; (xg 57%) sk 二 1,2, 其 中 (Xk, Yr) Fe plat A KI JA EM Eo 
jzi 





Ap, 为 机 器 人 的 当前 位 置 ，1v; | 为 机 器 人 的 速度 ， 在 本 例 中 为 每 秒 1 个 单位 。 
对 于 行为 “ 沿 上 山 梯度 "， 在 (yi) = (Pi + ui) 时 评估 回报 函数 83 
Ce )。 对 于 行为 ga,“ 沿 下 山坡 度 ”， 在 (x .95) = (Pp; +d; 1vi|) 时 评估 回报 函 
BEC ) 。 性 格 特征 “合作 ”假定 机 器 人 靠近 其 他 机 器 人 时 ， 团 队 的 生存 机 会 
增强 。 
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事实 上 ， 在 回报 函数 定义 中 ， 成 功 的 概念 是 非常 主观 的 。 根 据 所 获得 的 信息 





和 建立 模型 的 复杂 度 ， 成 功 具 有 完全 不 同 的 意义 。 例 如 ， 在 与 算法 6. 4 相同 的 设 
置 下 ， 可 假定 机 器 人 已 知 目标 位 置 ， 且 任务 只 是 接近 目标 。 在 这 种 情况 下 ， 回 报 
函数 Ei(， ) 可 以 包括 在 每 一 时 间 步 有 关 环境 危险 程度 的 外 部 信息 ， 即 可 击 中 机 
器 人 的 距离 或 与 目标 的 距离 。 请 注意 ， 在 算法 6.4 中 ,假设 这 些 信息 未 知 。 

由 于 选择 了 一 个 较 小 的 学 习 速率 (9 = 0.01) ， 则 预期 性 格 特征 将 会 缓慢 收 
敛 于 稳 态 值 。 任 意 选 择 一 个 机 器 人 的 结果 如 图 6-5 所 示 ， 由 图 可 知 ， 性 格 特征 的 
确 收敛 到 一 个 稳 态 值 。 图 6-5 P, ERRAU, ya), HF, a, DITA t 执行 
注意 ， 值 函数 在 一 定 范 围 内 变化 〈 这 并 不 是 必要 条 件 。 进 一 步 证 明 ， 
这 是 仿真 分 析 的 特殊 情况 ) 。 另 外 ， 还 注意 到 该 机 器 人 成 为 一 个 “ 疏 惧 ”机 器 人 
(》 增 加， 而 其 他 性 格 特征 减少 ) 。 因 此 ， 可 以 假设 这 个 特定 机 器 人 属于 某 种 类 


的 行为 。 


型 的 机 器 人 集群 ， 


PEAR EPA 
性 格 特 生 


























这 使 得 具有 特定 性 格 特征 的 成 本 函数 的 变化 更 加 困难 。 此 外 ， 


F 的 特定 值 是 当前 仿真 的 一 个 特点 。 如 果 初 始 化 不 同 ， 则 可 能 得 到 不 同 的 


= 








F 稳 态 值 ， 这 是 由 于 环境 











著 变化 以 及 机 器 人 的 初始 条 件 〈 性 格 特征 的 





初始 值 ) 不 同 。 表 6. 6 表明 ， 在 给 定 仿真 运行 中 ， 所 有 机 器 人 都 收敛 到 稳 态 值 ， 
且 彼 此 相关 。 而 对 于 不 同 回报 表 ( 见 表 6.5) 和 回报 函数 (E, Er, Es) 并 不 
一 定 成 立 ， 这 必须 考虑 ( 进一步 证 明 ) 具体 分 析 时 仿真 设置 的 特殊 性 。 
































成 本 函数 勇气 (71) 
2.5 T T 0.4 T T 
0.3 F J 
0.2 F J 
oir J 
1 oal 
0 100 200 300 0 100 200 300 
EIR ( 2) 合作 (73) 
1 0.4 天 
0.3 H 4 
0.8 H 
0.2 上 4 
0.6 H 
0.1r J 
0.4 1 | 0 } 1 
0 100 200 300 0 100 200 300 











机 器 人 的 效用 函数 和 性 格 特征 。 

















转载 自 文献 [21], © S. Givigi 和 H. M. Schwartz 
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36.6 性 格 特征 的 收敛 性 














勇气 (yı) 恐惧 (yp) 合作 (7) 
机 器 人 个 数 一 一 一 = ~ SS 
均值 标准 方差 均值 标准 方差 均值 标准 方差 
10 0. 1648 0. 1377 0. 1158 0. 1435 0. 7194 0. 2743 
20 0. 2451 0. 1006 0. 2381 0. 1713 0. 5167 0. 2316 
30 0. 1299 0. 0930 0. 3066 0. 1827 0. 5636 0. 1692 


























为 评估 仿真 的 质量 ， 需 衡量 机 带 人 量 测 目标 位 置 的 质量 。 在 第 i PSL AGE 
回 基地 时 ， 记 录 了 被 击 中 的 位 置 (xs ，ys ) (假设 机 器 人 被 击 中 时 就 返回 基 
地 )。 因 此 ， 如 果 (xr, yr) 为 目标 的 实际 位 置 ， 则 目标 位 置 的 最 佳 误 差 是 
( | | (xp ,yr) (xs ,Xs,) [| ) gel ,…,n, 其 中 n 是 仿真 中 的 机 器 人 个 数 。 另外 ,还 
量 测 仿真 中 所 有 机 器 人 返回 基地 所 需 的 总 时 间 和 所 有 机 器 人 的 平均 位 置 误差 。 结 
果 见 表 6.7, 其 中 给 出 了 目标 位 置 误差 任务 总 时 间 和 所 有 机 带 人 平均 位 置 误差 的 
均值 和 标准 方差 。 上 述 所 有 结果 都 是 通过 执行 10 次 目标 跟踪 任务 而 获得 的 。 




















表 6.7 仿真 结果 
7 目标 位 置 误差 总 时 间 所 有 机 器 人 的 位 置 误差 
机 器 人 个 数 — = ——— —— 
均值 标准 方差 均值 标准 方差 均值 标准 方差 
10 12. 2000 6. 5201 93. 3000 55. 6698 17. 3810 7. 7339 
20 9. 5880 3. 8975 136. 1000 45.4715 15. 5337 5.4713 
50 8. 4136 3. 9315 322. 5000 117. 8740 15. 3012 5.5135 

















结果 表明 ,一些 机 器 人 的 行为 与 团队 中 的 机 器 人 个 数 无 关 。 另 外 ,还 有 一 种 趋 
势 是 随 着 机 器 人 个 数 的 增加 可 获得 更 佳 的 目标 位 置 。 这 是 源 自 于 假设 ,正如 仿真 
中 所 观察 到 的 由 于 聚集 在 一 起 的 机 器 人 数量 越 多 时 ,机 器 人 被 击 中 的 概率 越 小 
[ 式 (6. 48) ] 。 实 际 上 ,为 更 好 地 表明 在 机 器 人 决定 采取 何 种 行为 时 其 他 机 器 人 的 
影响 ,认为 敌人 (坦克 ) 更 加 准确 ,并 将 式 (6. 48) 替换 为 
IvT(%;,y;) - 10 Š, VR; Casy) | 

Pa 


max(| T(x;,y;) |) 
即 机 器 人 被 击 中 的 可 能 性 是 算法 中 预测 的 10 倍 〈 因 此 概率 是 乘 以 0.1 而 不 是 
0.01) 。 同 时 ， 邻 近 其 他 机 器 人 的 存在 也 会 使 得 该 机 器 人 更 不 可 能 被 击 中 [这 是 
式 (6.49) 中 因数 10 的 含义 ] 。 这 样 ， 机 需 人 将 会 得 益 于 附近 机 需 人 个 数 的 增 
加 。 表 6.7 还 表明 ， 随 着 机 器 人 个 数 的 增加 ， 确 定 目标 位 置 的 总 时 间 也 相应 增 
大 ， 尽 管 这 不 是 线性 关系 。 这 是 因为 两 个 原因 : 首先 ， 机 器 人 需要 更 长 时 间 离 开 
基地 (假设 每 个 时 间 步 只 有 一 个 机 器 人 离开 基地 ); 第 二 ， 由 于 机 器 人 个 数 较 
多 ,被 击 中 的 机 会 减 小 [ 式 (6.49) ] ， 因 此 ， 需 要 更 长 的 时 间 才 能 返回 基地 。 














P(shot) = -0.1 (6.49) 
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在 采用 式 (6. 48) 中 的 概率 时 (JILE 6-5 WDR) BH, PERRE “ER” 
和 “合作 ”更 为 重要 ,产生 在 仿真 中 所 观察 到 的 最 有 意义 的 行为 ， 即 机 器 人 聚 
集 在 一 起 的 趋势 。 在 大 多 数 仿真 中 ， 机 器 人 形成 一 个 大 的 团队 ， 并 一 直 保 持 这 样 
直到 单个 机 器 人 被 敌人 击 中 。 由 表 6.7 也 可 看 出 ， 因 为 随 着 机 器 人 个 数 的 增 大 ， 
与 目标 的 平均 距离 稍微 减 小 。 这 也 是 聚集 行为 的 结果 。 图 6-6 给 出 了 仿真 中 机 器 
人 的 状态 图 ， 由 图 可 知 ， 机 融 人 的 确 聚 集 在 一 起 ， 但 某 些 机 器 人 (更 勇敢 的 机 
AA) 距离 机 器 人 群 中 心 较 远 。 然 而 ， 这 些 机 咒 人 更 有 可 能 被 击 中 [ 式 (6. 48) 
的 结果 ] 。 





图 6-6 仿真 过 程 中 机 器 人 的 状态 。 转 载 自 文献 [21], © S. Givigi 和 H. M. Schwartz 


仿真 中 观察 到 的 另 一 个 方面 是 某 些 机 器 人 被 击 中 后 其 余 机 器 人 的 行为 。 注 
， 由 于 活动 机 器 人 的 数量 减少 ， 算 法 6.4 的 步骤 19 中 计算 的 性 格 特征 yo “2h 
”的 回报 6&(，… ) 和 步 又 20 中 计算 的 性 格 特征 ys “合作 ”的 回报 25(，) 也 相 
应 减 小 。 因 此 ， 性 格 特征 y “勇气 ”的 回报 5 ( + ) 对 于 剩余 的 机 器 人 更 为 重要 ， 
并 且 这 些 机 器 人 倾向 于 更 直接 地 “攻击 ”目标 。 这 是 当 只 剩 下 几 个 机 器 人 时 所 
观察 到 的 行为 。 由 于 没有 其 他 机 器 人 的 帮助 ， 剩 余 的 机 器 人 将 承担 更 大 的 风险 并 
向 目标 运 劲 ， 从 而 被 击 中 的 风险 也 相应 增 大 。 

为 检验 群 机 器 人 对 利他 行为 的 适应 程度 ， 在 此 固定 一 些 机 器 人 的 勇气 ， 并 再 
次 运行 仿真 。 这 一 思想 是 检查 群 机 器 人 何 时 开始 表现 出 与 迄今 观察 到 的 不 同 群 体 
行为 。 图 6-7 ~ 图 6-9 所 示 是 一 些 机 器 人 设置 为 “勇气 ”时 一 段 时 间 内 的 仿真 结 
果 。 另 外 ， 还 将 被 击 中 的 概率 减 小 到 式 (6.49) 中 概率 值 的 10% 。 图 6-7 给 出 

了 20 个 机 器 人 中 2 个 设 为 勇敢 时 的 仿真 状态 。 这 与 图 6-6 中 的 仿真 状态 看 起 来 
并 无 太 大 不 同 。 图 6-8 给 出 了 20 个 机 器 人 中 5 个 设 为 勇敢 时 的 仿真 状态 ， 而 图 
6-9 给 出 了 20 个 机 器 人 中 10 个 设 为 勇敢 时 的 仿真 状态 。 由 图 6-8 可 知 ， 机 器 人 
团队 开始 分 裂 ， 而 图 6-9 表明， 当 一 半 机 器 人 变 得 勇敢 时 ， 机 器 人 团队 完全 分 
裂 。 这 意味 着 群 机 器 人 对 异常 个 体 具 有 一 定 程度 的 限制 ， 但 随 着 具有 某 种 特定 性 
格 特征 的 机 器 人 个 数 增加 ， 和 群体 动态 性 发 生 显著 改变 。 在 图 6-7 ~ 图 6-9 所 示 的 
情况 下 ， 可 知 当 更 多 的 机 器 人 变 得 勇敢 时 ， 会 驱使 整个 团队 达到 一 种 勇敢 状态 。 
注意 到 ， 为 了 使 得 这 种 行为 更 加 明显 ， 可 人 为 地 设置 勇敢 机 器 人 的 性 格 特征 yi 
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“勇气 ”为 1， 而 另外 两 种 性 格 特征 为 0。 

在 此 讨论 的 最 后 一 个 有 意义 的 行为 是 ， 一 些 机 器 人 如 何 转向 并 跟随 其 他 更 勇 
敢 的 机 器 人 ， 也 就 是 说 ， 等 待 勇敢 机 器 人 带头 并 跟随 。 图 6- 10 给 出 了 一 个 机 器 
人 转向 并 等 待 ， 直 到 一 个 更 勇敢 的 机 器 人 经 过 ， 随 之 跟随 后 者 。 发 生 这 种 情况 的 
原因 是 性 格 特征 “ 邵 惧 ” 和 “合作 ”的 值 远 远大 于 性 格 特征 “勇气 ”的 值 。 
此 ， 机 器 人 (a) 害怕 被 击 中 和 Cb) 想 与 其 他 机 融 人 共同 分 担 风险 。 


图 6-7 两 个 机 器 人 “勇敢 ”时 的 仿真 状态 。 转 载 自 文献 [21], © S. Givigi 和 H. M. Schwartz 


图 6-8 5 个 机 器 人 “勇敢 ”时 的 仿真 状态 。 转 载 自 文献 [21], © S. Givigi 和 H. M. Schwartz 


图 6-9 10 个 机 器 人 “ ”时 的 仿真 状态 。 转 载 自 文献 [21], OS. Givigi 和 H. M. Schwartz 


机 器 人 等 待 更 


勇敢 的 机 器 人 


图 6-10 机 器 人 等 待 更 勇敢 的 机 器 人 。 转 载 自 文献 [21], © S. Givigi 和 H. M. Schwartz 
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6.11 小 结 








本 章 提出 了 一 种 对 群 机 器 人 建 模 和 控制 的 独特 方法 。 该 方法 集成 了 博弈 理论 
思想 ， 并 结合 了 自 适 应 性 格 特征 来 实现 群 智能 。 在 此 提出 3 种 不 同 的 仿真 。 每 
种 仿真 情景 都 突出 体现 了 基于 博弈 理论 和 自 适应 性 格 特征 的 群 智能 的 不 同方 面 。 
第 一 种 仿真 盖 述 了 两 个 智能 体 或 机 器 人 如 何 进行 零 和 博弈 ， 以 及 智能 体 / 机 
顺 人 的 性 格 特征 如 何 收敛 到 纳什 均衡 。 收 敛 性 理论 证 明 验 证 了 该 方法 的 有 效 性 。 















































第 二 种 仿真 是 3 个 机 器 人 相互 协作 离开 房间 的 示例 。 表 明了 所 提出 的 方法 如 何 达 


到 最 优 性 能 。 此 外 ， 一 个 机 絮 人 收敛 到 “always walk” 状态 ， 而 另 一 个 机 句 人 收 
SMB “always wait” JAS, 第 三 种 情况 是 两 个 机 器 人 均 收敛 到 50% 等 待 和 50% 行 





走 的 混合 策略 。 


第 三 种 仿真 阐述 了 所 提出 的 方法 如 何 用 于 定位 目标 。 同 时 表明 机 器 人 不 同性 
格 特征 对 群体 性 能 的 影响 。 合 作 机 器 人 倾向 于 聚集 在 一 起 构成 一 个 紧密 群体 ， 而 
勇敢 机 器 人 脱离 群体 并 勇往直前 。 另 外 还 表明 群体 对 利他 个 体 具 有 一 定 的 容忍 
度 。 通 过 将 一 些 个 体 固 定 为 具有 “积极 性 ”， 表 明 这 些 个 体 需 占 到 整个 群体 的 一 
半 才 能 改变 群体 行为 的 结果 。 这 是 一 个 非常 重要 的 结果 ， 因 为 必须 处 理 失 效 机 
tA, 
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